李宏毅Self-attention

最新推荐文章于 2024-05-08 21:29:03 发布

蒋思

最新推荐文章于 2024-05-08 21:29:03 发布

阅读量247

点赞数

分类专栏： cv 文章标签：神经网络

本文链接：https://blog.csdn.net/u014422462/article/details/118521897

版权

cv 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

Self-Attention

self-attention 当你输入很多向量时候，然后经过神经网络进行输出结果，self-attention就是对输入的其中某一个向量处理时，让它充分的考虑与其它向量是否存在关系或者关系程度考虑过后再输出。建立关联性的过程就是self-attention。
词性标记场景：
在这里插入图片描述
红色框中就是每个单词的向量，如果我们单独把每个单词作为一个向量输入到FC网络中，输出词性，那么第二个saw和第四个saw输出一定是同一个词性，但是很明显第二个saw是动词，第四个saw是名词。那么如何解决这个问题呢？就需要self-attention，它的处理方式就是把所有单词向量输入进去，然后考虑每个单词与其它单词的联系，综合考虑之后输出。

运作原理

总体结构

在这里插入图片描述
首先，所有vector输入到self-attention中，有多少个vector输入，就会对应有多少个vector输出，红色框里的vector就是上面self-attention网络的输出，这里的每个vector是对应原来的vector考虑一整个vector得到的输出。然后再把输出的vector放到FC网络中，最后得到一个输出结果。这里的self-attention。同时上面这个结构不止可以使用一次，可以多次叠加。

在这里插入图片描述

self-attention专注于做所有向量的信息处理，FC专注做一个向量的处理。

具体原理

在这里插入图片描述

上面红色框就是self-attention，首先假设输入a1…a4向量，这个向量可能是input，也可能是某一层的输出，然后输出b1…b4，这里的b1是考虑了a1…a4向量的输出结果。
怎么产生b1？
计算两个向量关联程度
方法（Dot-product）:
在这里插入图片描述
计算两个向量的关联性α，首先输入两个向量，分别乘上W^q，W^k，输出q, k两个向量，再对两个向量做乘积运算最后得到α。
计算a₁与每个向量的关联性
首先把a₁乘以矩阵W^q，得到q¹，然后对每个向量都乘以W^k，得到k¹，k²，k³，k⁴。然后q¹与k¹，k²，k³，k⁴分别都做点积（Dot-product）运算, 最后得到a₁与每个向量的关联性值α_1,1，α_1,2，α_1,3，α_1,4。在这里插入图片描述
然后对每个数值做Soft-max得到，这里也可以用其他的激活函数。最后得到α^’_1,1…

在这里插入图片描述
根据上面这个α我们已经知道哪些向量与a1最有关系，然后我们就要根据这个分数抽取重要信息。
根据关联性，抽取重要信息

我们对a1…a4分别都乘以W^v得到v¹，v²，v³，v⁴，然后用α^’_1,1，α^’_1,2，α^’_1,3，α^’_1,4，分别乘以v¹，v²，v³，v⁴再累加求和，最后得到b1。

在这里插入图片描述
需要注意的是b1…b4，不是分别产生出来的，是一次同时计算出来的。

整体来看运作原理

我们如果模拟上面求b1的过程，来依次求得b2…b4。我们会发现，整体来看，第一步，a1…a4每个向量都会分别乘以W^q，W^k，W^v得到q, k, v, 所以整合起来就是把a1…a4作为一个矩阵I分别乘以W^q，W^k，W^v，得到Q，K，V。其中W^q，W^k，W^v是我们要学习的参数。
在这里插入图片描述
第二步要计算关联性（attention score），就是q¹分别与k¹，k²，k³，k⁴分别都做点积（Dot-product）运算。那么从矩阵角度就是下面红色方框中操作。就可以得出a1与其它向量的相关性。

但是不仅q¹要与k¹，k²，k³，k⁴分别都做点积（Dot-product）运算，我们会发现q²，q³，q⁴都要与k¹，k²，k³，k⁴做计算，那么整体来看，第二步操作就是对K^T乘以Q得到A，然后再对A中每一列进行求Soft-max，得到A^’。这样每一列对应的a1…a4中每一个向量与其它向量关联性的分数。
在这里插入图片描述
第三步
由下图，接下来的操作就是A^’中每一列乘以v¹，v²，v³，v⁴再累加求和，最后得到b1…b4。也就是O矩阵。

总之

在这里插入图片描述
从输入矩阵I开始其实就是做了一系列的矩阵操作，其中只有W^q，W^k，W^v这里面的参数是需要我们训练学习。这就是self-attention出来从a1…a4到b1…b4的所有过程。

Multi-head Self-attention

这是self-attention的进阶版本。因为相关性可以有很多种类，比如说可以依据身高这个角度计算相关性得到α，可以依据体重这个角度计算相关性。。。所有出现了multi-head self-attention
在这里插入图片描述
其实跟self-attention类似，上面以2个head举例，每个qⁱ，kⁱ，vⁱ，都分别乘以两个矩阵得到q^i,1，q^i,2，k^i,1，k^i,2，v^i,1,v^i,2,都分解为两个，进行对应的操作。其它都一样。最后得到bⁱ。
如果要考虑位置的信息
那么为每个位置设置一个向量eⁱ（尚待研究的问题），然后加到每个向量aⁱ上。
在这里插入图片描述

蒋思

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅Self-attention

Self-Attentionself-attention 当你输入很多向量时候，然后经过神经网络进行输出结果，self-attention就是对输入的其中某一个向量处理时，让它充分的考虑与其它向量是否存在关系或者关系程度考虑过后再输出。建立关联性的过程就是self-attention。词性标记场景：红色框中就是每个单词的向量，如果我们单独把每个单词作为一个向量输入到FC网络中，输出词性，那么第二个saw和第四个saw输出一定是同一个词性，但是很明显第二个saw是动词，第四个saw是名词。那么如何解决
复制链接

扫一扫