2021-05-07

最新推荐文章于 2021-07-05 01:14:33 发布

?vssyu

最新推荐文章于 2021-07-05 01:14:33 发布

阅读量74

点赞数

本文链接：https://blog.csdn.net/vssyu/article/details/116464662

版权

本文深入探讨了自注意力(self-attention)机制，解释了如何计算向量之间的关联性，并通过softmax层权重分配。在多头自注意力(Multi-Head Self-Attention)中，多个查询向量可以发现不同关联关系。此外，位置编码被用于引入位置信息。自注意力机制可以被视为RNN和CNN的变种，广泛应用于自然语言处理和序列建模任务。

摘要由CSDN通过智能技术生成

self-attenation

在这里插入图片描述
蓝色区域是self-attention输出。每个 $a$ 是一个向量， $a^{i}(i=1,....,n)$ 是一串向量。 $a^{i}$ 可能是一个系统输入，也可能是上一个self-attention层的输出。
下面写出 $b^{1}$ 的计算方式：

先计算出 $a^{1}$ 和其他 $a^{i}(i =1,....,n)$ 的关联性，用 $\alpha$ 来表示两个向量之间的关系度。求 $\alpha$ 有几种做法，这里用点乘举例。
在这里插入图片描述

这里有两个矩阵一query矩阵 $w^{q}$ ，一个ask矩阵 $w^{k}$ 。 $\alpha_{1,1}=q^{1}\cdot k^{1},\alpha_{1,2}=q^{1}\cdot k^{2}$ 。
然后经过softmax层。
$\alpha_{1, i}^{\prime}=\exp \left(\alpha_{1, i}\right) / \sum_{j} \exp \left(\alpha_{1, j}\right)$
在这里插入图片描述
这里出现了一个新矩阵 $W^{v}$ ， $v^{1}=W^{v}a^{1}$ .
$\boldsymbol{b}^{\mathbf{1}}=\sum_{i} \alpha_{1, i}^{\prime} \boldsymbol{v}^{i}$
$w^{q},w^{k},w^{v}$ 是要训练的参数。

这是multi-head的self-attention。 $q^{i,1}$ 只和 $k^{j,1}$ 和 $k^{i,1}$ 计算。
在这里插入图片描述
同理可得 $b^{i,2}$ 。

这是输出的 $b^{i}$ 。
multi-head self-attention中每个 $q^{i}$ 都对应一个关联关系。多几个 $q^{i}$ 就可以找出多几个关联关系。
通过position encoding 把位置信息变成一个向量 $e^{i}$ 加入到 $\alpha^{i}$ 中。
可以吧rnn和cnn看成特殊的self-attention。

?vssyu

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-05-07

self-attenation蓝色区域是self-attention输出。每个aaa是一个向量，ai(i=1,....,n)a^{i}(i=1,....,n)ai(i=1,....,n) 是一串向量。aia^{i}ai可能是一个系统输入，也可能是上一个self-attention层的输出。下面写出b1b^{1}b1的计算方式：先计算出a1a^{1}a1和其他ai(i=1,....,n)a^{i}(i =1,....,n)ai(i=1,....,n) 的关联性，用α\alphaα 来表示两个向量之间
复制链接

扫一扫