Self-attention原理以及与CNN,RNN对比

星码

已于 2022-05-11 21:18:25 修改

阅读量3k

点赞数 3

分类专栏： # NLP 文章标签： cnn rnn 深度学习

于 2021-10-27 20:35:51 首次发布

本文链接：https://blog.csdn.net/qq_43779658/article/details/121001332

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Self-attention

Self-attention
Reference

Self-attention

整体架构

每次输入的Sequence长度不一样，但输出数量要与输入数量相同（例如：词性标注）

目的：考虑整个input sequence的上下文资讯
Self-attention输出也要接入FC得到结果

图中用红颜色括号标起来的vector考虑了整个sequence的内容，此时Fully-connect考虑了整个Sequence的内容

可以将网络进行叠加：Fully-Connect与Self-attention交替使用

Self-attention处理整个Sequence的内容

Fully-Connect专注处理某个位置的内容

相关论文链接：Attention Is All You Need

运行原理

输入：可以是整个网络的input，也可以是做过某些处理
输出：考虑了整个Sequence产生的
先计算Q，K，V，后计算attention score，再根据其score对v做weight sum来抽取重要信息

计算attention score

以求出 a1 的输出 b1 为例子

Self-attention目的是为了考虑整个Sequence，但是又不是所有的Sequence的内容都是重要的，所以需要进行判断相关性

计算两个向量的关联程度 $\alpha$ 的方法

左边的Dot-product常用在了Tranformer中

在Self-attention中计算attention score： $\alpha$

可以不用Soft-max，有时会用ReLU

此时得到attention score $\alpha^‘$ （计算过程是上面的：Dot-product）
经过softmax归一化后，我们可以将 $\alpha^‘$ 称作：注意力权重

根据attention score来抽取重要的信息

由公式：当关联性越高，对应的 $\alpha$ 很大，最后得到的b就越接近关联程度越高的对应的 v 向量

从矩阵乘法的角度思考

q，k，v的计算

由之前的每个图中计算q，k，v向量的公式，从矩阵乘法角度看，整体可以简化

计算attention score

由之前图中的公式可以得到： $\alpha=k^T * q$ ，对全部的 $\alpha$ 使用矩阵乘法进行简化即可得图中计算

抽取信息

注意vi 与 ki 产生的 $\alpha^`$ 相乘

总结

先产生q，k，v；再根据q找出相关的位置；再对v做weight sum

进阶版本 - Multi-head Self-attention

定义相关性时，是使用q去找相关的k

但相关这件事有不同的定义，所以需要不同的q负责不同的相关性

以 2个heads 为例子:

以下进行求解结果矩阵O中一个元素 $b^i$

不同的 head 分别计算，计算过程如之前内容一样

$b^{i,j}$ ：

j 表示：第 j 个heads产生的b；
i 表示：第 j 个heads中第i个q (即 $q^{i,j}$ ) 去与对应的k计算产生的b

此时会得到两个结果矩阵，再将两个拼接起来，再乘以一个矩阵的转置得到最后的结果

相当将 $b^{i,j1}$ 与 $b^{i,j2}$ 进行了拼接(即：对应 $i$ 相同的 b 都拼接在一起)，再经过计算后得到了 $b^i$

最后的结果O是 多个由 $b$ 组成 (如1heads中的图示)

上述拼接操作可以理解为：将第 $i$ 个q ( $q^i$ ) 所在多个heads产生的b (b^{i,…}) 全部进行拼接

Positional Encoding - 加入位置信息

Self-attention的过程可以看到，并没有位置相关的信息

为每一个位置设置不同的positional vector，将其加到输入a上

但产生positional vector是一个在研究的问题

参考论文：Learning to Encode Position for Transformer with Continuous Dynamical Model

应用

Self-attention for Speech - Truncated Self-attention

for Image

对于Self-attention处理：图中矩阵可以看成5*10个vector，每个vector是3维向量

Self-attention VS. CNN

CNN是简化版的Self-attention

CNN考虑的是一个receptive field的信息

Self-attention考虑的是整个图片的信息

Self-attention会考虑每个向量的相关性，所以其receptive field可以看出自己学习出来的

而CNN的receptive field是自己指定的

Self-attention VS. RNN

RNN没有办法并行化产生输出，只能一个接一个输出；

Self-attention可以并行化输出

RNN当结果要考虑比相对较远输入的位置时，比较难以考虑到；

Self-attention可以很好的对输入位置比较远的向量进行考虑

RNN每个输出只考虑了其左边的输入，没有考虑右边的输入

Self-attention则考虑了整个Sequence