Effective Approaches to Attention-based Neural Machine Translation

本文介绍了Luong等人2015年的研究,他们在Bahdanau的注意力模型基础上提出全局和局部两种注意力机制。全局方法在每个时间步计算与源序列的所有隐藏状态的相似度,而局部方法仅关注源序列的一部分。实验结果显示,局部方法在多个翻译任务中表现最佳,特别是在使用general评分函数时。此外,作者还引入了input feeding来利用已翻译信息,并通过AER评估对齐质量。
摘要由CSDN通过智能技术生成

引言

Minh-Thang Luong等在2015年arXiv上的论文,原文地址:地址
这是继Bahdanau提出attention用于NLP的后续工作,作者提出了两种新的,相对于前面工作简单但有效的网络,一种称为global方法,实现上与Bahdanau使用的方式很相似,在每一次生成目标词时,都需要所有对源语句隐藏状态计算相似度,但相对来说更为直接简单;另一种称为local方法,不同的是在计算时只需要对源语句某个子集计算相似度,之后基于这个子集生成context vector。
此外,作者对比了不同的对齐函数在模型上所取得的效果,使用文中提出的模型,作者在英文翻译到德文的多项任务中取得了SOTA的结果。

模型

Neural Machine Translation

在这里插入图片描述
一般的神经网络翻译模型,都是直接对条件概率 p ( y ∣ x ) p(y|x) p(yx)建模,其中x为源语句,y为目标语句。具体到上述图中,蓝色部分的encoder,将目标语句编译成语义表示s,而红色部分的decoder接收源语句表示s,逐个字翻译目标语句,表达式如下:
在这里插入图片描述
在上述端到端的模型中,一般在神经单元后续加上一个softmax函数,生成一个字典大小的概率分布向量,决定当前生成的字,
在这里插入图片描述
如上所示,在整个计算过程中,源语句语义表示s都是不变的,如果通过一些方式使得s可以动态的变化,就是attention模型了。

Attention-based Models

Attention模型实际上讲的就是如何计算动态的源语句语义表示,这里称为c,对应的t时间步的语义表示则称为 c t c_t ct
对于global或者local方法来说,不同的只是通过当前时间t隐层输出 h t h_t ht与源语句隐层输出 h s h_s hs计算出context c t c_t ct

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值