零基础学nlp【4】 global attention 和 local attention（Effective approaches to attention-based neural mt）

最新推荐文章于 2024-03-23 10:56:20 发布

rory0114

最新推荐文章于 2024-03-23 10:56:20 发布

阅读量1.4k

点赞数 2

分类专栏：零基础学nlp 文章标签： attention nlp

本文链接：https://blog.csdn.net/weixin_41303016/article/details/88395450

版权

本文介绍了《Effective approaches to attention-based neural machine translation》论文中的全局（global attention）和局部（local attention）注意力机制，以及输入馈送方法。全局注意力使用所有输入时刻的encoder隐变量，而局部注意力只选择部分时刻。此外，论文还探讨了不同的注意力计算方法（dot、general、concat），并提出input-feeding approach，通过将前一时刻的输出与隐变量结合，传递历史信息。实验表明，全局关注下的dot模型和局部关注下的general模型表现优异。

摘要由CSDN通过智能技术生成

零基础学nlp【4】 global attention 和 local attention

论文：Luong M T, Pham H, Manning C D. Effective approaches to attention-based neural machine translation[J]. arXiv preprint arXiv:1508.04025, 2015.

主要内容

基于之前的注意力机制之上，这篇论文提出了两个概念，分别是“global attention”和“local attention”。两者区别在于构建注意力机制时前者使用所有的输入时刻的encoder隐变量，而后者采用部分的encoder隐变量。同时，与之前的注意力机制不同在对decoder的输出进行预测时，不是采用前一时刻的隐变量预测，而是采用当前时刻的隐变量预测当前时刻的输出。文中还采用了三种不同的注意力机制获得方法，并进行了比较