back translation时如何选取源语言生成方式

最新推荐文章于 2022-07-14 11:16:00 发布

Geek Fly

最新推荐文章于 2022-07-14 11:16:00 发布

阅读量1.6k

点赞数

分类专栏：论文阅读文章标签：机器翻译 machin translation NLP 回溯 back translation

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Real_Brilliant/article/details/100104836

版权

Sergey2018EMNLP_Understanding Back-Translation at Scale

摘要：

采样/加噪的合成数据，比greedy/beam方法生成的数据训练效果更好
研究了合成数据较之真正双语数据效果如何
研究了各种domain effects

Intro：

关于如何使用单语语料优化模型，已经有了大量的研究：语言模型融合、回溯、对偶学习
回溯中，target是自然单语数据，source是合成数据。因为要用自然数据训练MT中的语言模型模块，合成数据效果肯定不会很好

相关工作：

Low resource language pairs can also be improved with synthetic data where the source is simply a copy of the monolingual target data.
Sampling synthetic sources is more effective than beam search.

源语料合成：

Greedy和Beam都是找到MAP（最大后验概率）输出的近似算法
Beam在找到MAP输出上通常很有效，但这也会导致less rich translations：since it always favors the most likely alternative in case of ambiguity
作者认为上述问题，在数据增强，例如回溯的场景下，是个比较严重

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
back translation时如何选取源语言生成方式

Sergey2018EMNLP_Understanding Back-Translation at Scale摘要：采样/加噪的合成数据，比greedy/beam方法生成的数据训练效果更好研究了合成数据较之真正双语数据效果如何研究了各种domain effectsIntro：关于如何使用单语语料优化模型，已经有了大量的研究：语言模型融合、回溯、对偶学习回溯中，target是自然...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。