Neural Machine Translation by Jointly Learning to Align and Translate 学习笔记

最新推荐文章于 2022-03-02 21:16:25 发布

Doron15

最新推荐文章于 2022-03-02 21:16:25 发布

阅读量1.5k

点赞数

分类专栏：论文笔记文章标签： nlp NMT Alignment attention

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Doron15/article/details/81866095

版权

Neural Machine Translation by Jointly Learning to Align and Translate 学习笔记

本文就Neural Machine Translation by Jointly Learning to Align and Translate 一文进行学习总结，有何不妥的地方，烦请各位指正。

Neural Machine Translation by Jointly Learning to Align and Translate 学习笔记

0. 概述

神经机器翻译不像传统的统计机器翻译，它的目的是建立一个单一的神经网络，使这个网络能够最大化翻译效果。NMT通常是编码器和解码器的结合，编码器把源语句转化为固定长度的向量，由解码器生成翻译。这篇论文认为使用固定长度的向量是提升编码器解码器结构效果的瓶颈，所以提出通过让模型自动（平滑地）搜索源语句中与预测目标单词相关的部分来提升效果，而不是明确地把这些部分转化为生硬的部分。实验显示，效果不错。
之前的NMT在处理长句子的时候会有些困难，尤其是比训练数据集更长的文本。随着数据句子长度增加，基本的编码解码器表现会急剧下降。因此，该论文提出将编码解码模型拓展，使其能够连带地学习去对齐和翻译。每翻译一个单词，它就在源语句中查找信息最相关的位置集合。这个模型基于与这些源位置相关联的上下文向量和所有之前形成的目标单词预测目标单词。
最大的区别在于它不是尝试去把一整个输入句子编码为一个单一的固定长度的向量。而是把输入的句子编码为向量的序列，解码翻译的时候选择这些向量的一个子集。这也就解放了NMT，不需要再把源语句所有的信息，不管有多长，压缩成一个固定长度的向量。这个模型对长句子表现要更好。不过任何长度上它的优势都很明显。

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Neural Machine Translation by Jointly Learning to Align and Translate 学习笔记

Neural Machine Translation by Jointly Learning to Align and Translate 学习笔记本文就Neural Machine Translation by Jointly Learning to Align and Translate 一文进行学习总结，有何不妥的地方，烦请各位指正。Neural Machine Translat...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。