关于注意力机制(attention mechanism)在神经机器翻译领域的两篇论文的理解

本文探讨了注意力机制在神经机器翻译(NMT)中的应用,主要涉及两篇论文。第一篇提出将注意力机制引入Seq2Seq模型,通过加权源语言向量计算期望值来提高翻译准确性。第二篇论文扩展了注意力机制,提出了全局和局部注意力模型,其中全局模型考虑所有输入单词,而局部模型在固定窗口内进行计算,降低了计算成本。实验表明局部模型的效果优于全局模型。
摘要由CSDN通过智能技术生成

近来研究通过RNN的Seq2Seq模型处理文本正则化(Text Normalization)时准备用到注意力机制,因此拜读了注意力机制在自然语言处理的神经机器翻译(以下简称NMT)的两篇论文:

  • 《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》
  • 《Effective Approaches to Attention-based Neural Machine Translation》

首先是第一篇《NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE》,这篇论文算是在自然语言处理(NLP)中第一个使用attention机制的工作,将attention机制用到了神经网络机器翻译(NMT),NMT其实就是一个典型的Seq2Seq模型,也就是一个encoder to decoder模型,传统的NMT使用两个RNN,一个RNN对源语言进行编码,将源语言编码到一个固定维度的中间向量,再使用一个RNN进行解码翻译到目标语言:
传统的Seq2Seq模型
按照论文所述,encoder中的每个隐层单元的计算公式为:
这里写图片描述
encoder的输出语义编码向量c为:
这里写图片描述
而decoder通过将联合概率p(y)分解成有序条件来定义翻译y的概率:

  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值