注意力机制原理_带注意力机制的Seq2Seq翻译模型

最新推荐文章于 2024-05-30 14:32:14 发布

weixin_39966020

最新推荐文章于 2024-05-30 14:32:14 发布

阅读量270

点赞数

文章标签：注意力机制原理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39966020/article/details/111614680

版权

本文介绍了注意力机制在神经机器翻译（NMT）模型中的原理和计算步骤。注意力机制由Bahdanau等人提出，旨在解决解码序列过长导致的效果下降问题。通过计算编码阶段的记忆与解码时刻的相似度，形成注意力权重，进而生成上下文向量，用于解码过程。文章还简述了注意力机制的计算流程，并提供了使用示例。

摘要由CSDN通过智能技术生成

1.注意力机制原理

上一篇文章介绍了如何使用Tensorflow来搭建一个简单的NMT模型，但那只是一个初级的模型。下面我们通过加入注意力机制（attention mechanism）来使得其变得更加高级一点。

关于什么时注意力机制呢，笔者就按照谷歌NMT开源文档中的说明来简单介绍一下。首先，最初注意力是由Bahdanau等人在2015年提出的，紧接着Luong等人又对其进行了改进，然后就出现了很多的版本。之所以要提出注意力机制就是为了解决当解码的序列太长时，越到后面效果就越差。因为在未引入注意力机制之前，解码时仅仅只依靠上一时刻的输出而忽略的编码阶段每个时刻的输出（“称之为记忆”）。注意力机制的思想在于，希望在解码的时刻能够参考编码阶段的记忆，对上一时刻输出的信息做一定的处理（也就是只注意其中某一部分），然后再喂给下一时刻做解码处理。这样就达到了解码当前时刻时，仅仅只接受与当前时刻有关的输入，类似与先对信息做了一个筛选（注意力选择）。

2. 计算步骤

最低0.47元/天解锁文章

weixin_39966020

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
注意力机制原理_带注意力机制的Seq2Seq翻译模型

1.注意力机制原理上一篇文章介绍了如何使用Tensorflow来搭建一个简单的NMT模型，但那只是一个初级的模型。下面我们通过加入注意力机制（attention mechanism）来使得其变得更加高级一点。关于什么时注意力机制呢，笔者就按照谷歌NMT开源文档中的说明来简单介绍一下。首先，最初注意力是由Bahdanau等人在2015年提出的，紧接着Luong等人又对其进行了改进，然后就出现了很多的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。