Neural Machine Translation by Jointly Learning to Align and Translate论文解读

基本信息

作者D Bahdanaudoi
发表时间2014期刊ICLR
网址https://arxiv.org/pdf/1409.0473v5

研究背景

1. What’s known 既往研究已证实
通过改进编码器或解码器的结构来提高翻译性能,如使用长短时记忆网络(LSTM)或门控循环单元(GRU),但仍然无法从根本上解决长句翻译的问题。

2. What’s new 创新点
引入注意力机制,使模型更好的处理长句。
使用软对齐,计算源句子中每个词与目标句子中当前预测词的相关程度,使得结果更灵活与准确。

3. What’s are the implications 意义
提升长句翻译性能,减少信息丢失,解决长句翻译问题。

研究方法

1. 对齐与注意力机制
双向RNN作为编码器和一个解码器组成。一个计算前向(h1~ht),一个计算后向。
在这里插入图片描述
St 是输出在 t 时刻的隐状态:在这里插入图片描述
概率在这里插入图片描述
其中eij 是一个对齐模型,对位置 j 周围的输入和位置 i 的输出的匹配程度进行打分。
在这里插入图片描述
利用LSTM代替门控隐藏单元,新状态si :
在这里插入图片描述
在这里插入图片描述
zi 允许每个隐藏单元保持其先前的激活状态,ri 控制前一个状态的信息应该被重置多少和哪些信息。

结果与讨论

  1. 对齐与注意力机制可以改进机器翻译的性能。
  2. 对齐质量上也显著优于 PBMT,产生符合直觉和人工标注的对齐结果。

个人思考与启发

传统的Seq2Seq模型在编码阶段将整个输入序列编码成一个固定长度的向量,所以可能会丢失细节信息。注意力机制允许模型在解码的每个时间步上,根据当前需要,从编码器的输出中选择性地关注相关信息。从而提高了翻译质量以及翻译长度。

重要图

文献中重要的图记录下来
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值