[论文阅读]Neural Machine Translation By Jointly Learning to Align and Translate

XMU_MIAO

于 2020-10-31 21:13:17 发布

阅读量1.3k

点赞数 1

分类专栏：论文阅读文章标签：自然语言处理深度学习 pytorch 神经网络机器学习

本文链接：https://blog.csdn.net/ZY_miao/article/details/109399800

版权

本文提出了一种新的神经机器翻译架构，通过引入注意力机制解决长句翻译问题。模型利用双向RNN编码输入序列，允许译码器根据需要关注源句的不同部分，从而避免固定长度上下文向量的局限性，提高了翻译性能。

摘要由CSDN通过智能技术生成

前言

论文名：Neural Machine Translation By Jointly Learning to Align and Translate
论文作者：Dzmitry Bahdanau et.al.
期刊/会议名：ICLR 2015
本文作者：XMU_MIAO

摘要

神经机器翻译（NMT）是近来提出的应用于机器翻译的一种方法。不同于传统的统计机器翻译（SMT），神经机器翻译致力于构建一个能够联合最大化翻译性能的网络。近来提出的神经翻译模型通常属于Encoder-Decoder类的，其将源句编码成一个定长的向量，而后译码器将该向量解码成翻译句。
在本文中，我们推测使用定长向量是限制基础 $\textbf{Encoder{-}Decoder}$ 架构性能的瓶颈。同时提出允许模型自动地（软）搜索与目标词相关的源句的各个部分，而不是显式地指定。通过这种新方法，我们的翻译性能可与现有的最先进的基于短语的系统在英法翻译任务上相媲美。此外，定性分析表明，该模型得到源句词和目标词的(软)对准与我们的直觉很一致。

一、神经机器翻译

1、机器翻译

从概率的观点看，翻译等同于找到一个在给定源句 $\textbf{x}$ 找到条件概率最大（即： $argmax_{\textbf{y}}p(\textbf{y}|\textbf{x})$ ）的目标句 $\textbf{y}$ 。在神经机器翻译中，我们使用平行训练语料库来拟合一个参数化的模型来最大化句子对的条件概率。翻译模型学习条件分布后，给定源句，通过搜索条件概率最大的句子，就可以生成相应的翻译。

2、基于RNN的Encoder-Decoder架构

该部分简要介绍由cho et.al.(2014a)和Sutskever et.al.(2014)提出的基于RNN的Encoder-Decoder架构。我们在此基础上提出一种能够同时学习对齐(源句词与目标句词的对齐)和翻译的架构。
在Encoder-Decoder框架中，编码器端读取输入句子，一个向量序列 $\textbf{x}=(x_1,...,x_{T_x})$ 并得到向量 $c$ ，最常见的方法是使用这样的RNN $h_t=f(x_t,h_{t-1})\\c=q(\{ h_1,...,h_{T_x} \})$ 其中 $h_t\in R^n$ 是 $t$ 时刻的隐藏状态， $c$ 是从隐藏状态序列中得到的上下文向量， $f$ 和 $q$ 是某些非线性函数。例如：Sutskever et.al.(2014)使用 $\textbf{LSTM}$ 作为 $f$ ， $q(\{ h_1,...,h_T\})=h_T$ 。
译码器通常在给定上下文向量 $c$ 和所有之前预测过的词 ${y_1,...,y_{t^{'}-1}\}$ 上训练来预测下一个词 $y_{t^{'}}$

最低0.47元/天解锁文章

XMU_MIAO

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读]Neural Machine Translation By Jointly Learning to Align and Translate

文章目录前言摘要一、神经机器翻译1、机器翻译2、基于RNN的Encoder-Decoder架构二、文章贡献三、模型架构1.译码器：整体概述2.编码器：用于注释序列的双向RNN四、实验设置五、代码实现六、结果分析总结前言论文名：Neural Machine Translation By Jointly Learning to Align and Translate论文作者：Dzmitry Bahdanau et.al.期刊/会议名：ICLR 2015本文作者：XMU_MIAO摘要神经机器翻
复制链接

扫一扫

专栏目录