一文读懂 Self-Attention机制

Torres_9_cfc

已于 2022-05-18 11:41:07 修改

阅读量290

点赞数 1

文章标签：深度学习机器学习人工智能

于 2022-05-18 00:42:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/torres9_1125/article/details/124833658

版权

Self-Attention

这4个Vector,他们都是考虑一整个Sequence以后才得到的

Self-Attention过程

Self-Attention的Input,它就是一串的Vector,那这个Vector可能是你整个Network的Input,它也可能是某个Hidden Layer的Output,这边不是用x来表示它,

那这每一个b都是考虑了所有的a以后才生成出来的

这里有一个特别的机制,这个机制是根据a1这个向量,找出整个很长的sequence裡面,到底哪些部分是重要的,哪些部分跟判断a1是哪一个label是有关係的,哪些部分是我们要决定a1的class,决定a1的regression数值的时候,所需要用到的资讯

每一个向量跟a1的关联的程度,用一个数值叫α来表示

比较常见的做法呢,叫做用==dot product==（点乘）,输入的这两个向量分别乘上两个不同的矩阵,左边这个向量乘上Wq这个矩阵得到矩阵q,右边这个向量乘上Wk这个矩阵得到矩阵k
再把q跟k做dot product,就是把他们做element-wise 的相乘,再全部加起来以后就得到一个 scalar,这个scalar就是α,这是一种计算α的方式
有另外一个叫做==Additive==的计算方式,它的计算方法就是,把同样这两个向量通过Wq Wk,得到q跟k,那我们不是把它做Dot-Product,是把它这个串起来,然后丢到这个过一个Activation Function
然后再通过一个Transform,然后得到α

计算这个α的数值有各种不同的做法

用a12表示query是a1提供的，key是a2提供的，a12成为attention score

同理得到a13 a14

再连接一个soft-max层

接下来得到这个α′以后,就要根据这个α′去抽取出这个Sequence里面重要的key,根据这个α我们已经知道哪些向量跟a1是最有关系的

如果某一个向量它得到的分数越高,比如说如果a1跟a2的关联性很强,这个α′得到的值很大,那在做W相加以后,得到的b1的值,就可能会比较接近v2

所以谁的Attention的分数最大,谁的v就会主导抽出来的结果

首先把a1到a4这边每一个向量,乘上Wv得到新的向量,这边分别就是用v1v2v3v4来表示
接下来把这边的v1到v4,每一个向量都去乘上Attention的分数,都去乘上α′
然后再把它加起来,得到b1

矩阵的角度

Wq实是 network 的参数,通过学习出来的

self-attention矩阵表示形式

Multi-head Self-attention

最后乘以一个权重矩阵

Positional Encoding

对 Self-attention 而言,位置 1 跟位置 2 跟位置 3 跟位置 4,完全没有任何差别,这四个位置的操作其实是一模一样,对它来说 q1 到跟 q4 的距离,并没有特别远,1 跟 4 的距离并没有特别远,2 跟 3 的距离也没有特别近

Positional Encoding

Truncated Self-attention

Truncated Self-attention 在做 Self-attention 的时候,不要看一整句话,就只看一个小的范围就好，这个范围应该要多大,那个是人设定的

一张图片,我们也可以换一个观点,把它看作是一个 vector 的 set

把每一个位置的像素,看作是一个三维的向量,所以每一个像素,其实就是一个三维的向量,那整张图片,其实就是 5 乘以 10 个向量的set

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一文读懂 Self-Attention机制

Self-Attention这4个Vector,他们都是考虑一整个Sequence以后才得到的Self-Attention过程Self-Attention的Input,它就是一串的Vector,那这个Vector可能是你整个Network的Input,它也可能是某个Hidden Layer的Output,这边不是用x来表示它,那这每一个b都是考虑了所有的a以后才生成出来的这里有一个特别的机制,这个机制是根据a1这个向量,找出整个很长的sequence裡面,到底哪些部分是重要的..
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。