神经机器翻译RNNsearch(论文Neural Machine Translation by Jointly Learning to Align and Translate) 学习笔记

本文是关于Neural Machine Translation by Jointly Learning to Align and Translate的论文学习笔记,介绍了神经机器翻译如何通过注意力机制解决固定长度向量瓶颈问题,允许翻译更长的句子。内容包括双向RNN编码器、软对齐的注意力机制解码器,以及联合对齐和翻译的学习过程。
摘要由CSDN通过智能技术生成

Neural Machine Translation by Jointly Learning to Align and Translate 学习笔记

  • 引言
  1. 传统的基于短语的翻译系统, 是由很多孤立的子成份构成的,而神经机器翻译试图构建一个简单高效的的神经网络,其输入和输出都为句子。
  2. Encoder-Decoder的网络模型首先对源句子进行编码, 得到一个fixed-length的向量, 然后再进行解码得到解码向量, 并得到对应的输出翻译。而这个固定长度的向量,将会成为模型的瓶颈,特别是当句子的长度大于训练集的长度时,尤为明显,因为它把源句子中的所有信息都压缩在固定长度的向量中。
  3. 注意力机制: 在解码的过程中, 同时对 “文本对齐”与“翻译”建模, 具体地, 可以使用软对齐的方式,搜索得到与当前状态下最相关的源词语片段,然后再根据这些相关的源词语的位置,预测输出下一个词语。这样就可以不受fixed-length向量的限制,可以不用把所有的信息全都压缩在这样的向量中,也可以翻译更长的句子。
  • 神经机器翻译的背景
  1. 从概率的视角而言,翻译其实就是找到使条件概率p(y|x)最大的y.而神经机器翻译, 虽然是刚兴起的方法,但效果显著.
  2. RNN Encoder-Decoder网络: 先使用一个RNN网络, 进行Encode,再根据网络的各个隐状态h来得到一个固定长度的向量c. 而在Decode阶段, 使用RNN网络依据前面输出的翻译词语, 及向量c,来依次得到下一个词语, 直至翻译结束.这种方式虽然乍看起来很简单, 但却是能work的。
  3. 下图是RNNenc网络的示意图[1]
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值