注意力机制的理解（借鉴）

最新推荐文章于 2024-02-06 16:04:16 发布

考研想喝奶茶

最新推荐文章于 2024-02-06 16:04:16 发布

阅读量390

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/qq_43557445/article/details/109465007

版权

一、Encoder-Decoder框架

在这里插入图片描述
如图是在文本处理领域的Encoder-Decoder框架。

Encoder：对输入句子进行编码，通过非线性比变换转化为中间语义表示C
在这里插入图片描述
Decoder：根据中间语义C和之前的历史信息，生成输出语句

每个yi都是依次产生的。

二、Soft Attention模型

上图中展示的Encoder-Decoder框架是没有体现出"注意力模型"的，可以看作是注意力不集中的分心模型。
在这里插入图片描述
从单词生成的过程中，可以发现无论生成哪个单词，都用到C，没有区别。而语义编码C是原句子经过编码产生的，也就是原句子中的任何词对生成的Yi的影响力都是相同的。因此没有体现出"注意力"。

而引入注意力模型，就是给原句子的词添加注意力分配概率。那么原先的中间语义编码C会被替换成根据当前生成单词而不断变化的Ci。
在这里插入图片描述
目标句子单词的生成过程：

求C1、C2、C3的过程，是一个加权求和的过程。

$L_x$ 是原句子长度， ${a_i}_j$ 是目标句子输出第i个单词时原句子第j个单词的注意力分配系数（也就是权重随着输出单词而变化的）， $h_j$ 是原句子第j个单词的语义编码
在这里插入图片描述

三、Self Attention模型

Soft Attention是目标句子和原句子之间的Attention机制，而Self Attention是原句子内部之间或目标句子内部之间的Attention机制。
在这里插入图片描述
Q、K、V都是来自同一输入，先计算Q和K的点乘，再除以一个尺度标度√dk，其中dk是Q和K向量的维度；再利用softmax操作将结果归一化，再乘上V得到结果。

举例

要翻译一个词组Thinking Machines，其中Thinking的输入的embedding vector用 $x_1$ 表示，Machines的embedding vector用 $x_2$ 表示。
在这里插入图片描述
当我们处理Thinking这个词时，我们需要计算句子中所有词与它的Attention Score，这就像将当前词作为搜索的query，去和句子中所有词（包含该词本身）的key去匹配，看看相关度有多高。
计算Thinking的attention score的时候我们需要计算 $q_1$ 与 $k_1$ 、 $k_2$ 的点乘。然后进行尺度缩放和softmax归一化。
在这里插入图片描述
显然，当前单词与其自身的attention score一般最大，其他单词根据与当前单词重要程度有相应的score。
最后用这些attention score与value vector相乘，得到加权的向量。

下面是矩阵形式：

这就得到了句子内部之间的注意力分配系数。

考研想喝奶茶

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
注意力机制的理解（借鉴）

一、Encoder-Decoder框架如图是在文本处理领域的Encoder-Decoder框架。Encoder：对输入句子进行编码，通过非线性比变换转化为中间语义表示CDecoder：根据中间语义C和之前的历史信息，生成输出语句每个yi都是依次产生的。二、Soft Attention模型上图中展示的Encoder-Decoder框架是没有体现出"注意力模型"的，可以看作是注意力不集中的分心模型。从单词生成的过程中，可以发现无论生成哪个单词，都用到C，没有区别。而语义编码C是原句子经过
复制链接

扫一扫