读Unsupervised NMT

最新推荐文章于 2025-04-25 23:56:44 发布

铁三运动员

最新推荐文章于 2025-04-25 23:56:44 发布

阅读量118

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/bassbian/article/details/120259558

版权

本文探讨了无监督神经机器翻译的方法，首先介绍了如何利用word embedding和预定义的词典建立跨语言词向量映射。接着，重点讲述了在获取两种语言的词向量后，如何进行无监督训练，特别是denoising和backtranslation技术的应用。denoising通过引入噪声减少顺序影响，提高翻译质量；backtranslation则通过翻译后的句子反向翻译回原始语言，对比差异更新参数。整个过程无需监督数据，体现了无监督学习的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

UNSUPERVISED NEURAL MACHINE TRANSLATION

github上总得给老师检查备一份

1. translation是基于word embedding。embedding的时候分别train两个language embedding。用一个小的配好对的字典（seed dictionary）做mapping，去找到两个language相对应的words，在这个过程中得到一个关于对应关系的线性函数来对应两个language embedding里面其他所有的词。相当于seed dictionary里面的是ground truth，通过ground truth来找对应关系，来对应其他不知道怎么对应的词。这一部分其实是另一篇paper讲cross-lingual word embedding的，一会就看！

2. 这篇文章侧重讲的是unsupervised translation。在得到两个language word-embedding之后，去做unsupervised training。文章里说主要用到denoising和on-the-fly backtranslation两个步骤，但我觉得看懂back translation就能懂为什么叫unsupervised了。比如用language L1里面的一句S1翻译成language L2里面对应意思的句子S2。在training过程中，S1随便被翻译成S2'，但不告诉系统真正的S2是什么，而是再用得到的S2'去翻译回L1语言里面对应的S1'。通过比较S1和S1'的不同来更新参数，来达到训练效果。我觉得**unsupervised**指的就是中间翻译成的S1'的那步，**backtranslation**指的应该就是从S2'翻译回S1'那步。

3. 顺便记一下denoising。就是人为添加的noise，通过减小语序对翻译结果的影响，从而提高翻译质量。denoising就是随机打乱（交换）S1里面一般的词的顺序。

最后的最后，是一个打赏链接