基本信息
作者 | D Bahdanau | doi | |
---|---|---|---|
发表时间 | 2014 | 期刊 | ICLR |
网址 | https://arxiv.org/pdf/1409.0473v5 |
研究背景
1. What’s known 既往研究已证实
通过改进编码器或解码器的结构来提高翻译性能,如使用长短时记忆网络(LSTM)或门控循环单元(GRU),但仍然无法从根本上解决长句翻译的问题。
2. What’s new 创新点
引入注意力机制,使模型更好的处理长句。
使用软对齐,计算源句子中每个词与目标句子中当前预测词的相关程度,使得结果更灵活与准确。
3. What’s are the implications 意义
提升长句翻译性能,减少信息丢失,解决长句翻译问题。
研究方法
1. 对齐与注意力机制
双向RNN作为编码器和一个解码器组成。一个计算前向(h1~ht),一个计算后向。
St 是输出在 t 时刻的隐状态:
概率
其中eij 是一个对齐模型,对位置 j 周围的输入和位置 i 的输出的匹配程度进行打分。
利用LSTM代替门控隐藏单元,新状态si :
zi 允许每个隐藏单元保持其先前的激活状态,ri 控制前一个状态的信息应该被重置多少和哪些信息。
结果与讨论
- 对齐与注意力机制可以改进机器翻译的性能。
- 对齐质量上也显著优于 PBMT,产生符合直觉和人工标注的对齐结果。
个人思考与启发
传统的Seq2Seq模型在编码阶段将整个输入序列编码成一个固定长度的向量,所以可能会丢失细节信息。注意力机制允许模型在解码的每个时间步上,根据当前需要,从编码器的输出中选择性地关注相关信息。从而提高了翻译质量以及翻译长度。
重要图
文献中重要的图记录下来