EMNLP 2017 NMT with word prediction

文章链接:https://arxiv.org/abs/1708.01771
概述:
这篇文章针对传统的seq2seq模型decoder端的改进。
针对解决的问题:
1.传统的seq2seq模型,encoder端通过一个双向的LSTM或者GRU,生成一个固定维度的向量用来表示源端信息,我们用这个向量initial_state来表示源端的信息。因此源端所形成的initial_state在整个翻译过程中,他对源端信息表示是否正确变得尤为重要。
2在整个过程中,seq2seq模型采用反向传播的算法,由于模型的复杂性和所需要训练的参数较多,使用 BPTT反向传播算法来更新参数的过程无法直接控制这个表示向量
想法:
1.基于上面两个问题,在这篇文章中提到了在生成源端信息之后,利用这个信息来预测整个目标端的单词,这里不包含目标端词的顺序
2.在这个预测整个目标端的单词的同时,我们可以生成目标端为有可能出现的频繁单词集,用这个集合作为目标端翻译时的词汇表一方面可以提高翻译的准确率,另一方面词汇表的大小减小,可以提高翻译的效率。
3.此外,将这个词预测机制应用于decoder端翻译过程中,使得翻译时刻t的状态值St可以预测剩余没有被翻译的单词。
原理:
word prediction总体概述图

(1)通过initial state预测目标端单词主要采用类似于attention的一个机制:
这里写图片描述

这里写图片描述

(2)将word_prediction机制用于decoder端的过程
这里写图片描述
(3)训练过程采用的是多任务联合训练方法
(4)最后利用initial_state生成的最有可能的目标端词汇构成decoder端翻译的词汇表。

文章链接:https://arxiv.org/abs/1708.01771

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值