注意力机制的理解(借鉴)

一、Encoder-Decoder框架

在这里插入图片描述
如图是在文本处理领域的Encoder-Decoder框架。
在这里插入图片描述

Encoder:对输入句子进行编码,通过非线性比变换转化为中间语义表示C
在这里插入图片描述
Decoder:根据中间语义C和之前的历史信息,生成输出语句
在这里插入图片描述
每个yi都是依次产生的。

二、Soft Attention模型

上图中展示的Encoder-Decoder框架是没有体现出"注意力模型"的,可以看作是注意力不集中的分心模型
在这里插入图片描述
从单词生成的过程中,可以发现无论生成哪个单词,都用到C,没有区别。而语义编码C是原句子经过编码产生的,也就是原句子中的任何词对生成的Yi的影响力都是相同的。因此没有体现出"注意力"。

而引入注意力模型,就是给原句子的词添加注意力分配概率。那么原先的中间语义编码C会被替换成根据当前生成单词而不断变化的Ci。
在这里插入图片描述
目标句子单词的生成过程:
在这里插入图片描述
求C1、C2、C3的过程,是一个加权求和的过程。
在这里插入图片描述
L x L_x Lx是原句子长度, a i j {a_i}_j aij是目标句子输出第i个单词时原句子第j个单词的注意力分配系数(也就是权重随着输出单词而变化的), h j h_j hj是原句子第j个单词的语义编码
在这里插入图片描述

三、Self Attention模型

Soft Attention是目标句子和原句子之间的Attention机制,而Self Attention是原句子内部之间或目标句子内部之间的Attention机制
在这里插入图片描述
Q、K、V都是来自同一输入,先计算Q和K的点乘,再除以一个尺度标度√dk, 其中dk是Q和K向量的维度;再利用softmax操作将结果归一化,再乘上V得到结果。
在这里插入图片描述

举例

要翻译一个词组Thinking Machines,其中Thinking的输入的embedding vector用 x 1 x_1 x1表示,Machines的embedding vector用 x 2 x_2 x2表示。
在这里插入图片描述
当我们处理Thinking这个词时,我们需要计算句子中所有词与它的Attention Score,这就像将当前词作为搜索的query,去和句子中所有词(包含该词本身)的key去匹配,看看相关度有多高。
计算Thinking的attention score的时候我们需要计算 q 1 q_1 q1 k 1 k_1 k1 k 2 k_2 k2的点乘。然后进行尺度缩放和softmax归一化。
在这里插入图片描述
显然,当前单词与其自身的attention score一般最大,其他单词根据与当前单词重要程度有相应的score。
最后用这些attention score与value vector相乘,得到加权的向量。
在这里插入图片描述
下面是矩阵形式:
在这里插入图片描述
这就得到了句子内部之间的注意力分配系数。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值