attention机制详解

最新推荐文章于 2024-08-15 20:42:08 发布

ylyyyy

最新推荐文章于 2024-08-15 20:42:08 发布

阅读量3.3k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40240670/article/details/81224817

版权

原论文：Neural Machine Translation by Jointly Learning to Align and Translate

参考博客：https://blog.csdn.net/shijing_0214/article/details/75194103

注意一点：这篇论文把输入端隐含层状态称为注释ｈ，输出端隐含层状态称为隐含层状态ｓ

叫法不同，其实都是隐含层状态

没有引入注意力的模型在输入句子比较短的时候问题不大，但是如果输入句子比较长，此时所有语义完全通过一个中间语义向量来表示，单词自身的信息已经消失，可想而知会丢失很多细节信息，这也是为何要引入注意力模型的重要原因。

由传统的解码过程，我们知道：

可以看到，在对每个时刻的输出做预测的时候，用到的上下文向量都是一样的，引入注意力机制后，我们希望实现的是在预测每个时刻的输出时用到的上下文是跟当前输出有关系的上下文，比如在翻译“知识就是力量”的时候，我们希望翻译“is”的时候关注的信息是“就是”，而不是其他无关的词。也就是：

ct（或者ｃｉ）就是引入注意力的关键所在，为了加入注意力，我们新模型如下：

模型的下面是一个双向的RNN，也可以是单向的，这个不是加入注意力的关键，只不过在序列模型中，双向RNN可以更好地编码信息。具体如何理解该图，我们看下面，

在上面的定义中，ct是引入注意力的关键所在，它的作用就是要起到将输出与相关输入联系起来，我们定义：

其中，hj是编码输入第j个位置的隐状态信息，这里针对双向RNN,hj=[hj→;hj←]，即把前向后项RNN得到的隐状态向量进行拼接。权重α很重要，它能够标识输入中的哪些词汇当前的输出关系比较大。我们定义权重α:

可以把α理解为一个归一化的概率值，表示输入的第j个词对当前输出的关系概率。

上面α的定义中引入了记号eij，

它实际上是一个对齐模型，是一个嵌套在RNN中的一个前馈神经网络，记录了位置ｊ处的输入和位置ｉ处的输出的匹配程度，由输出层的隐层状态ｓi-１（决定了ｙｉ）和输入层的隐含层状态ｈｊ决定，在训练的时候一起被训练，如图：

（总感觉这幅图有问题，yi应该与yi-1，si，ci有关，这个图上面总感觉画的怪怪的）

对齐模型与整个模型放在一起训练，得到权重α，再结合隐状态序列(h1,h2,...,hT)就可以得到上下文向量序列，将其带入到解码过程就可以求得生成序列，每一步生成过程如下：

以上是序列模型引入注意力机制的基本思路，本质上还是利用输入隐状态序列(h1,h2,...,hT)增强了对句子有选择地记忆能力，这对解码过程是非常有帮助的。

附原文截图

这里ｔ和上面提到的ｉ是一个意思

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

博客等级

码龄7年

63
原创

144
点赞

539
收藏

47
粉丝

关注

私信

最新评论

Python中zip函数的用法
学习啊啊啊啊啊: 太清晰了，简单易懂，谢谢！
fast_align工具包的使用
卡布里藍: 加个s显示分数，然后把分数切割出来
fast_align工具包使用踩坑记录
卡布里藍: 请问对齐后怎么构建字典呢？
fast_align工具包的使用
100T Bang: 您好，对于fast_align对齐工具，怎么样使用它对平行语料进行词对齐评分哇，我只需要分数，这个怎么操作
CBOW最强理解
搬砖公司: 写的很好，谢谢博主

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。