Neural Machine Translation by Jointly Learning to Align and Translate论文解读

最新推荐文章于 2025-03-20 18:21:03 发布

卷心菜不想卷

最新推荐文章于 2025-03-20 18:21:03 发布

阅读量556

点赞数 4

文章标签：机器翻译人工智能自然语言处理

本文链接：https://blog.csdn.net/m0_52775136/article/details/141822851

版权

基本信息

作者	D Bahdanau	doi
发表时间	2014	期刊	ICLR
网址	https://arxiv.org/pdf/1409.0473v5

研究背景

1. What’s known 既往研究已证实
通过改进编码器或解码器的结构来提高翻译性能，如使用长短时记忆网络（LSTM）或门控循环单元（GRU），但仍然无法从根本上解决长句翻译的问题。

2. What’s new 创新点
引入注意力机制，使模型更好的处理长句。
使用软对齐，计算源句子中每个词与目标句子中当前预测词的相关程度，使得结果更灵活与准确。

3. What’s are the implications 意义
提升长句翻译性能，减少信息丢失，解决长句翻译问题。

研究方法

1. 对齐与注意力机制
双向RNN作为编码器和一个解码器组成。一个计算前向（h1~ht），一个计算后向。
在这里插入图片描述
St 是输出在 t 时刻的隐状态：
概率
其中eij 是一个对齐模型，对位置 j 周围的输入和位置 i 的输出的匹配程度进行打分。

利用LSTM代替门控隐藏单元，新状态si ：

zi 允许每个隐藏单元保持其先前的激活状态,ri 控制前一个状态的信息应该被重置多少和哪些信息。