self attention(上)_ 自注意力结构解读_by Li 弘毅

ZhengXinTang

已于 2023-04-10 13:43:26 修改

阅读量1.3k

点赞数 1

分类专栏： # 神经网络模型结构文章标签： transformer 深度学习

于 2022-04-01 16:43:47 首次发布

本文链接：https://blog.csdn.net/chumingqian/article/details/123900126

版权

神经网络模型结构专栏收录该内容

26 篇文章 1 订阅

订阅专栏

首先明白一个关键点：

self attetion: 自注意力，什么叫做自注意力；

衡量各个输入向量之间的关联度，（或称相关性）

自注意力的本意：

举例讲来，现在有一个输入序列，该输入序列由12 个向量构成，
那么自注意力，便是对这12个输入向量之间，相互算各自的关联性，这是自注意力的初衷；

而在输入的多个向量之间寻找相关性，这个相关性，通过注意力分数来体现了。

多头注意力：

理解这一点，便知道了多头注意力的思想了；
单个自注意力，使用的是一种方式来衡量了各个输入向量之间的相关性；

那么，多个注意力便是用多种方式来衡量各个输入向量之间的相关性；

1. 模型的输入

1.1 输入单个向量或多个向量

现实任务中，

有输入单个向量的任务；
也有同时输入多个向量，即输入一个序列；

1.2 输入vector的生成

输入向量的编码有多种形式：

one-hot encoding:
[ 1 0 0 0 0 0 …]
Word Embedding:
相比于 One hot 向量，词嵌入向量，会包含语义的信息，
每个词汇对应一个向量，一个句子对应了多个长度不相等的向量, 此时一个句子，是一个序列 sequence,
比方说将词嵌入向量二维坐标表示出来是，给个类别的下的实例，会各自聚类在某一处；
将一帧长度的音频信号表示成一个向量；
即有多种做法，可以用一个向量来表示出一帧长度内的语音信号；

在这里插入图片描述

1.3 输入与输出

这里着重介绍第一种，输出向量的长度，与输入向量的个数对应；

在这里插入图片描述

2. self-attention 产生的原因：

以词性标注任务，
对一个句子输入的每一个单词进行词性划分；
在这里插入图片描述
例如：i saw a saw;
第一个saw 是动词，第二saw 是名词锯子；

此时，如何解决对于全连接层，相同的输入，却要输出不同的结果？

解决方法：考虑输入的上下文信息，即该输入的前几个输入，以及后面的几个输入，考虑上下文的信息；
在这里插入图片描述

但是，此时又存在另外一个问题：考虑输入的前多少个，后多少个信息才算合适的呢？
如果，将整个输入序列都覆盖住，这样不但会增加FC 层的参数，而且很容易产生过拟合；

那么输入时，该考虑输入的前后多少个信息才合适呢？
为了解决这个问题, self -attention 出现了，

在这里插入图片描述
将单个向量 $V$ 输入到 self attention 中:
self-attention 会考虑整个输入序列，
得到一个包含上下文信息的向量 $V 1$ ,（即包含了 V的前后向量的信息）；
然后在将包含上下文信息的向量 $V 1$ 输入到 FC层中；

相比没有self attention 时，是直接将输入 $V$ 输入到 FC层中；

从而FC 处理单个向量中的信息，而 self -attention 处理了多个向量之间信息（即整个序列）；

2.1 self -attention 实现机理：

那么 self -attention 是
如何做到将一个输入的向量经过变换之后获得上下文信息的向量？

计算单个向量 $a_1$ 与其他输入向量 $a_j$ 之间的注意力分数 $\alpha_{1,j}$ ；
那么注意力分数 $\alpha_{1,j}$ 是如何实现的呢？计算过程？

2.1: 求出向量 $a^1$ 本身的咨询值 query: $q^1$ ；( $q^1$ 由参数矩阵 $w^q$ 与 $a^1$ 相乘获得；)
$q^1 = W^q a^1$

2.2: 求出向量 $a^2$ 的 key值: $k^2$ . ( $k^2$ 由参数矩阵 $w^k$ 与 $a^2$ 相乘获得：)

$k^2 = W^k a^2$

2.3: 将 $q^1$ 与 $k^2$ 两者做点积, 得到 $a^1$ 与 $a^2$ 之间的注意力分数 $\alpha_{1,2}$ ；
注意，这里是否可以将点积换成相加， Fastformer论文?
从而求出向量 $a^1$ 与其他输入向量 $a^j$ 之间的注意力分数；
然后各个相关性分数 $\alpha_{1,j}$ 通过一个 softamax , 得到一个归一化后的注意力分数 $\alpha^’_{1,j}$ . (softmax 也可以换成relu 实验一下）

在这里插入图片描述

此时，先产生另外一个变量 $v^i$ , $v^i$ 通过参数矩阵 $w^v$ 与自身向量 $a^i$ 两者之间相乘得到;
$V^i = W^v a^i$

在这里插入图片描述

然后，将各个注意力分数 $\alpha^’_{1,j}$ 与每一个自身的 $v^i$ 相乘得到一个向量，将这些向量求和，得到最终的 $b^1$ ;

由此可知，注意力分数 $\alpha^’_{1,j}$ ，与 $v^i$ 最大的，将会主导 $b^1$ 的产生；
在这里插入图片描述

重复上述过程，我们便得到经过 self attention 的各个 $b ^j$ ;

ZhengXinTang

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
self attention(上)_ 自注意力结构解读_by Li 弘毅

seqseq for syntactic Parsing:用于文法解析， “ Grammar as Foreign Language ” 14 年；for Muli label calssifiction: 即一个对象它同时属于多个标签；for Object Detectiono;Encode - self attention注意，这里每一个Block 是模型中多个 Layer 所做的事情；A, B残差相加得到C这里的输出的第二行中每一
复制链接

扫一扫