（深度学习）Self-attention

最新推荐文章于 2024-05-14 18:17:04 发布

Hoyyyaard

最新推荐文章于 2024-05-14 18:17:04 发布

阅读量1.4k

点赞数 1

分类专栏：深度学习文章标签： visual studio c++ linux

本文链接：https://blog.csdn.net/KNIGHT_HOY/article/details/123720028

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

self-attention

self-attention

三种seq输入输出类型

在这里插入图片描述

Each vector has a label

Sequence labeling
- 如果但考虑一个vector 那机器没办法给同样的vector两个不同的label
- 比如说 “saw”动词是看名词是锯子
- 所以需要将前后向量一起输进去那么FC就可以考虑neighbor
- 但是这个方法只能考虑一个window内不能考虑整个seq

Self-attention

得到一个seq输出过程

考虑整个seq
输入不一定是input 可以使hidden layer的输出

在这里插入图片描述

上图如何产生b1
- 计算a1 a2 …之间的连续用α表示 α的生成可以由以下两种Dot-product或者Additive生成

在这里插入图片描述

产生attention score α
- a1的q1称为 query （查询）其余a 的k 称为 key

在这里插入图片描述

* 实战中也会a1也会跟自己做关联性得到K1  得到的α放进softmax层

在这里插入图片描述

抽取每个seq的重要资讯加权得到b1：
- a 乘上 Wv 抽取每个seq的重要信息V
- V * α（关联度）加起来得到b

在这里插入图片描述

上述矩阵化

在这里插入图片描述

总过程：输入I 输出O

在这里插入图片描述

Multi-head Seft-attention

每个head之间做处理忽略其他head

在这里插入图片描述

position encoding

上述的结构网络缺少seq之间的位置信息
每个位置有一个独特的向量表示
人为的设定位置可能没有很好的复用性由于每个seq的长度都不一样可能溢出
故需要网络自己去学习这个seq的位置

在这里插入图片描述

Application

Self-attention for Speech
- 语音序列过长；Attention Matrix过大
- 故可以通过人为设定range Attention in a range 考虑语音的小范围（Truncated Self-attention）

在这里插入图片描述

Self-attention for Image
- img可以看做是 vector set
- example：下面的img可以看成是一个 5*10的vector
- Self-attention vs CNN
  - CNN是简化版的self-attention
  - CNN人为设定receptive field
  - self-attention更像网络自己学习这个receptive field的大小找到跟这个pixel有关的其他pixel
Self-attention vs RNN
- RNN的长距离关联较弱需要一直记在memory里面
- RNN处理seq不是采用同时进行需要等待上一个seq输出的vector
- 而self-attention可以平行处理所有seq

在这里插入图片描述

self-attention for Graph（GNN）
- 关联性跟edge有关可以不由网络学习得到

在这里插入图片描述

Hoyyyaard

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
（深度学习）Self-attention

文章目录self-attention三种seq输入输出类型Each vector has a labelSelf-attention得到一个seq输出过程上述矩阵化Multi-head Seft-attentionposition encodingApplicationself-attention三种seq输入输出类型Each vector has a labelSequence labeling如果但考虑一个vector 那机器没办法给同样的vector两个不同的label比如说
复制链接

扫一扫

专栏目录