【深度学习】04-01-自注意力机制（Self-attention）-李宏毅老师21&22深度学习课程笔记

暖焱

已于 2023-04-11 14:57:47 修改

阅读量1.8k

点赞数

分类专栏： # 深度学习-李宏毅文章标签：深度学习人工智能

于 2022-06-23 18:23:51 首次发布

本文链接：https://blog.csdn.net/guai7guai11/article/details/125407095

版权

深度学习-李宏毅专栏收录该内容

18 篇文章 21 订阅

订阅专栏

04-01-自注意力机制Self-attention

模型输入
- 文字处理
- 语音处理
- Graph
模型输出
- 类型一：一对一（Sequence Labeling）
- 类型二：多对一
- 类型三：多对多（由模型自定seq2seq）
一对一类型：序列标注问题 - 无上下文信息
序列标注问题 - 解决方法一：滑动窗口相邻向量信息
序列标注问题 - 解决方法二：全连接网络（Fully Connected Network）
序列标注问题 - 解决方法三：Self-attention
Self-attention
- 如何保证每个输出都能分析所有输入上下文？ - 关联度
- 如何确定两个输入向量的关联程度α？- 计算关联度的模组（Dot-product & Additive）
- - 计算关联度的模组 Dot-product（transformer中的方法）
  - 计算关联度的模组 Additive
Self-attention 如何利用 Dot-product 计算出关联度？
- 如何基于关联度抽取信息？- 加权求和
Self-attention 原理
多头注意力机制 (Multi-head Self-attention)
- 为什么需要多种注意力？- 相关性可能有多种
- 如何计算多头注意力中的相关性？- 按相关类型计算
注意力机制问题：没有位置信息
- 为什么需要位置信息？- 位置信息很重要
- 如何为Self-attention添加位置信息？- Positional Encoding
- - 如何表示位置信息 $e^i$ ？ - 人工标注 & 数据集训练
  - - 人工标注表示位置信息
    - 训练集训练
自注意力机制的应用
- 语音处理
- 问题：超大输入序列导致复杂度很高 - Truncated Self-attention
- 图像处理
Self-attention Vs CNN
Self-attention Vs RNN
Self-attention 应用图论（GNN）
Self-attention 众多变形

模型输入

在这里插入图片描述

文字处理

无论是预测视频观看人数还是图像处理，输入都可以看作是一个向量，输出是一个数值或类别。然而，若输入是一系列向量（序列），同时长度会改变，例如把句子里的单词都描述为向量，那么模型的输入就是一个向量集合，并且每个向量集合的大小都不一样。
在这里插入图片描述

一种将单词表示为向量的方法：One-hot Encoding（独热编码）。

向量的长度就是世界上所有词汇的数目，用不同位的1（其余位置为0）表示一个词汇，如下所示：

apple = [1, 0, 0, 0, 0, …]
bag = [0, 1, 0, 0, 0, …]
cat = [0, 0, 1, 0, 0, …]
dog = [0, 0, 0, 1, 0, …]
computer = [0, 0, 0, 0, 1, …]

但是这种表示方式默认了所有词汇间没有任何关系，猫和狗都是动物这种关系在向量集中体现不出来，里面没有任何有意义的信息。

one hot representation编码的每个单词都是一个维度，彼此independent。

另一种将单词表示为向量方法：Word Embedding。

给单词一个向量，这个向量有语义的信息，一个句子就是一排长度不一的向量。将Word Embedding画出来，就会发现同类的单词就会聚集，因此它能区分出类别：

在这里插入图片描述

To learn more: https://youtu.be/X7PH3NuYW0Q (in Mandarin)

什么是 word embedding? - YJango的回答 - 知乎

语音处理

取一段语音信号作为窗口，可以将10ms内的信息描述为一个向量（帧），滑动这个窗口就得到这段语音的所有向量（一个向量集）。

在这里插入图片描述

Graph

社交网络的每个节点就是一个人，节点之间的关系用线连接。每一个人就是一个向量。

在这里插入图片描述

分子上的每个原子就是一个向量（每个元素可用One-hot编码表示），分子就是一堆向量。

在这里插入图片描述

模型输出

按照输入向量与输出标签的数量关系，可以分为一对一、多对一及多对多。

类型一：一对一（Sequence Labeling）

每个输入向量对应一个输出标签。
在这里插入图片描述

文字处理：词性标注（每个输入的单词都输出对应的词性）。
语音处理：一段声音信号里面有一串向量，每个向量对应一个音标。
图像处理：在社交网络中，推荐某个用户商品（可能会买或者不买）。

在这里插入图片描述

类型二：多对一

多个输入向量对应一个输出标签。

在这里插入图片描述

语义分析：正面评价、负面评价。
语音识别：识别某人的音色。
图像：给出分子的结构，判断其亲水性。

在这里插入图片描述

类型三：多对多（由模型自定seq2seq）

不知道应该输出多少个标签，机器自行决定。
在这里插入图片描述

翻译：语言A到语言B，单词字符数目不同
语音识别

接下来先讨论一对一类型。

一对一类型：序列标注问题 - 无上下文信息

序列标注：Sequnce Labeling

利用全连接网络，输入一个句子，输出对应单词数目的标签。

在这里插入图片描述

问题：当一个句子里出现两个相同的单词，并且它们的词性不同（例如：I saw a saw. 我看见一把锯子）。期望模型输出第一个saw为动词，第二个saw为名词，但是这种结构的神经网络不可能做到。

序列标注问题 - 解决方法一：滑动窗口相邻向量信息

解决：让神经网络考虑上下文，利用滑动窗口，每个向量查看窗口中相邻的其他向量的性质。

考虑整条语句分析的情况，需要获取整条语句的词汇信息，需要滑动窗口包含语句所有词汇的向量，这样会导致全连接神经网络的参数暴增，进而导致超大运算量甚至是过拟合。

所以，这种方法不能解决整条语句的分析问题，即语义分析。这就引出了 Self-attention 技术。

序列标注问题 - 解决方法二：全连接网络（Fully Connected Network）

既然是寻找上下文关系，为什么不使用全连接网络？- 运算量大&容易过拟合

考虑训练集中最长的语句的长度作为滑动窗口的尺寸，这意为着Fully Connected Network需要大量参数，运算量很大，而且容易overfeating。

序列标注问题 - 解决方法三：Self-attention

输入整个语句的向量到self-attention中，输出相等个数的向量，且输出的每个向量都考虑输入的整个语句向量集的信息。

一种方式是考虑训练集中最长的语句的长度作为滑动窗口的尺寸，这意为着Fully Connected Network需要大量参数，运算量很大，而且容易overfeating。

在这里插入图片描述

输入整个语句的向量到self-attention中，输出对应个数的向量，再将其结果输入到全连接网络，最后输出标签。以上过程可多次重复，fully connected network 与 self-attention 交替使用：

在这里插入图片描述

Google 根据自注意力机制在论文 Attention is all you need 中提出了 Transformer 架构，注意力机制在该论文之前就已经存在，但是，是在Attention is all you need论文中将注意力机制称为Self-attention，并使其发扬光大。

self attention ：专注整个序列的信息。FC：专注某个位置的信息

Self-attention

在这里插入图片描述

a表示输入层或隐藏层，每个输出b与所有输入a都相关。

如何保证每个输出都能分析所有输入上下文？ - 关联度

在这里插入图片描述

α 表示a1与a4的关联程度。又称为 attention score。

在类似语义分析的任务场景中，每个输出b都需要分析所有a，但是使用滑动窗口又会导致参数量暴增，所以需要根据a1找出输入向量集中哪些向量与 ’ 判断a1的类别 ’ 相关。

如何确定两个输入向量的关联程度α？- 计算关联度的模组（Dot-product & Additive）

在这里插入图片描述

计算关联度的模组很多，输入两个[输入向量]，输出两个[输入向量]的关联程度。

下面的讲解以 Dot-product 和 Additive 为例。

计算关联度的模组 Dot-product（transformer中的方法）

在这里插入图片描述

计算关联度的模组 Additive

在这里插入图片描述

Self-attention 如何利用 Dot-product 计算出关联度？

在这里插入图片描述

注意：a1与自己也要计算关联程度。

【待补充】a1与自己计算关联程度的重要性？

在这里插入图片描述

$\alpha_{i,j}$ 表示两个输入向量的关联程度，通过 $q^i$ 和 $k^j$ 的内积运算得到，其中i表示 $q^i$ 是由 $a_i$ 计算出来的，j表示 $k^j$ 是由 $a_j$ 计算出来的

计算出相关性之后，可加一层softmax层（也可以加别的激活函数，比如ReLu）。

在这里插入图片描述

注： $b^i (1≤i≤4)$ 是同时计算出来的。

如何基于关联度抽取信息？- 加权求和

在这里插入图片描述

哪个 $a'_{ij} × v^i$ 更大，哪个 $a^1$ 就更能决定结果 $b_i$

在这里插入图片描述

Self-attention 原理

这里需要三个向量：Query，Key，Value。其解释参考文章《如何理解 Transformer 中的 Query、Key 与 Value》- yafee123

在这里插入图片描述

注意：K^TQ的结果A，需要经过SoftMax处理。

在这里插入图片描述

上述过程可以总结为：

① 输入矩阵 $I$ 分别乘以 $W^q，W^k，W^v$ 得到三个矩阵 $Q, K, V$ 。
② $A=K^TQ$ ，经过激活函数处理得到注意力矩阵 $A'=softmax(\frac {K^TQ}{\sqrt{d_k}})$
③ 输出 $O = V A^{'}$

即：
$\cdot softmax(\frac {K^TQ}{\sqrt{d_k}})$
其中， $\sqrt{d_k}$ 为向量长度。唯一要训练出的参数就是 $W^q，W^k，W^v$ 。

注意力系数计算：

阶段1：根据Query和Key计算两者的相似性或者相关性
阶段2：对第一阶段的原始分值进行归一化处理
阶段3：根据权重系数对Value进行加权求和，得到Attention Value

所有输入向量中，谁的 attention score 大，谁就能决定Attention Value，即b。

具体计算参考：动手推导Self-Attention

在这里插入图片描述

多头注意力机制 (Multi-head Self-attention)

为什么需要多种注意力？- 相关性可能有多种

有些任务（例如：翻译、语音辨识等）中，multi-head会得到更好的结果。

之前的例子，都是用Q去找K，来计算相关性。但是两个事物之间相关性可能有多种不同的类型。因此设置多种Q(head)，多种K(Key)，多种V(Value)，不同的Q来负责不同的相关性。

head的个数是超参数。

如何计算多头注意力中的相关性？- 按相关类型计算

所有 $b^{i,j}$ 单独计算，同时得出。比如 $b^{i,1}$ ， $b^{i,2}$ ， $b^{i,3}$ 单独计算同时得出。

在这里插入图片描述

如上述公式，在Multi-head的情况下，输入还是Q,K,V，输出是不同head的输出的拼接结果，再投影到 $W^0$ 中。其中，对每一个head，可以将 Q,K,V 通过不同的可学习的参数 $W^Q,W^K,W^V$ 投影到一个低维上面，再做注意力函数Attention，最后输出结果。

Query，Key，Value首先经过一个线性变换，然后输入到放缩点积attention，注意这里要做 h 次，其实也就是所谓的多头，每一次算一个头。而且每次Q，K，V进行线性变换的参数W是不一样的 $W^Q,W^K,W^V$ 。然后将 h 次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值作为多头attention的结果。