论文阅读：《Neural Machine Translation by Jointly Learning to Align and Translate》

最新推荐文章于 2023-12-22 16:11:54 发布

吴海旭

最新推荐文章于 2023-12-22 16:11:54 发布

阅读量6.6k

点赞数 7

分类专栏：自然语言处理深度学习

本文链接：https://blog.csdn.net/WUTab/article/details/73657905

版权

这是2015年的一篇会议论文，作者是Dmitry Bandana，KyungHyun Cho，Yoshua Bengio。本文最重要的贡献就是提出了attention机制。下面我先总结每段的要点，然后适当添加自己的解读。

ABSTRACT
神经机器翻译（NMT）里，别人大多用encoder-decoder，我们推测把原句编码到一个固定长度的向量是一个瓶颈，然后我们提出了改进。

1 INTRODUCTION
神经机器翻译是新技术，大多数都是encoder-decoder。一个潜在的问题是把信息都压缩在固定长度的向量，无法对应长句子。为了解决这个问题，我们提出了一个扩展，它同时进行对齐和翻译。每次我们的模型生成新的翻译词，它在原句那些最有可能包含有关信息的位置上进行搜索。
这个方法最重要的特点是，它没有尝试将原句的所有部分编码到固定长度的向量，而是它把原句编码到一序列向量，然后在解码的时候灵活的选用这个序列的子集。

2 BACKGROUND：NEURAL MACHINE TRANSLATION
从统计的角度看，翻译相当于寻找译句 $\textbf{y}$ ，使得给定原句 $\textbf{x}$ 时条件概率最大，即 $arg max_{\textbf{y}} p(\textbf{y} | \textbf{x})$ 。

2.1 RNN ENCODER-DECODER
在Encoder-Decoder框架里，编码器把原句，一个序列的向量 $x = (x_{1},...,x_{T_{x}})$ ，编码到一个向量 $c$ 。最普遍的方法是用一个RNN：

$h t = f (x t, h t - 1)$ $\begin{equation} h_{t} = f(x_{t},h_{t-1}) \end{equation}$
还有

$c = q ({h t, . . ., h T x})$ $\begin{equation} c = q(\{h_{t},...,h_{T_{x}}\}) \end{equation}$
解码器用来给定上下文向量 $c$ 和所有之前预测好的词 $\{y_{1},...,y_{t^{'}-1}\}$ ，预测下一个词 yt

最低0.47元/天解锁文章

吴海旭

关注

7
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：《Neural Machine Translation by Jointly Learning to Align and Translate》

这是2015年的一篇会议论文，作者是Dmitry Bandana，KyungHyun Cho，Yoshua Bengio。本文最重要的贡献就是提出了attention机制。下面我先总结每段的要点，然后适当添加自己的解读。 ABSTRACT 神经机器翻译（NMT）里，别人大多用encoder-decoder，我们推测把原句编码到一个固定长度的向量是一个瓶颈，然后我们提出了改进。 1
复制链接

扫一扫