读Unsupervised NMT

UNSUPERVISED NEURAL MACHINE TRANSLATION

github上总得给老师检查备一份

1. translation是基于word embedding。embedding的时候分别train两个language embedding。用一个小的配好对的字典(seed dictionary)做mapping,去找到两个language相对应的words,在这个过程中得到一个关于对应关系的线性函数来对应两个language embedding里面其他所有的词。相当于seed dictionary里面的是ground truth,通过ground truth来找对应关系,来对应其他不知道怎么对应的词。这一部分其实是另一篇paper讲cross-lingual word embedding的,一会就看!

2. 这篇文章侧重讲的是unsupervised translation。在得到两个language word-embedding之后,去做unsupervised training。文章里说主要用到denoising和on-the-fly backtranslation两个步骤,但我觉得看懂back translation就能懂为什么叫unsupervised了。比如用language L1里面的一句S1翻译成language L2里面对应意思的句子S2。在training过程中,S1随便被翻译成S2',但不告诉系统真正的S2是什么,而是再用得到的S2'去翻译回L1语言里面对应的S1'。通过比较S1和S1'的不同来更新参数,来达到训练效果。我觉得**unsupervised**指的就是中间翻译成的S1'的那步,**backtranslation**指的应该就是从S2'翻译回S1'那步。

3. 顺便记一下denoising。就是人为添加的noise,通过减小语序对翻译结果的影响,从而提高翻译质量。denoising就是随机打乱(交换)S1里面一般的词的顺序。

最后的最后,是一个打赏链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值