零基础学nlp【2】注意力机制(Neural machine translation by jointly learning to align and translate)

最新推荐文章于 2024-08-16 15:51:11 发布

rory0114

最新推荐文章于 2024-08-16 15:51:11 发布

阅读量1.1k

点赞数 2

分类专栏：零基础学nlp 文章标签： nlp 注意力机制

本文链接：https://blog.csdn.net/weixin_41303016/article/details/88353743

版权

本文深入探讨了Bahdanau等人提出的注意力机制在神经机器翻译中的应用，通过在encoder-decoder结构中引入注意力，尤其是双向循环神经网络，显著提升了长句翻译的准确性。解码过程中的注意力变量根据输入动态调整，替代了固定隐藏状态。训练过程中，注意力模型与整个系统同步优化。

摘要由CSDN通过智能技术生成

零基础学nlp【2】注意力机制

论文：.Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[J]. arXiv preprint arXiv:1409.0473, 2014

主要内容

在使用encoder-decoder用于机器翻译的任务中，作者在在encoder和decoder上做了某些结构的修改：1）在encoder上使用了双向的循环门控单元，使得encoder得到的每个输入的隐变量同时包含前后部分的信息 2）decoder中在每次解码过程中利用引入注意力机制的变量代替了原先的固定的变量，输入解码器中。通过这样的改变（主要是引入了注意力机制），使得建立的模型在对长句的翻译效果得到了巨大的提升。
包含注意力机制的decoder模型结构基础encoder-decoder模型结构
如图左边为包含了注意力机制的decoder结构，右图为普通的encoder-decoder模型，可以看出注意力机制是将encoder中的隐变量通过权重比的设置集合成一个C用来代替之前的用最后一个输入得到的隐变量C，即对于不同的输出&#x