Sergey2018EMNLP_Understanding Back-Translation at Scale
摘要:
- 采样/加噪的合成数据,比greedy/beam方法生成的数据训练效果更好
- 研究了合成数据较之真正双语数据效果如何
- 研究了各种domain effects
Intro:
- 关于如何使用单语语料优化模型,已经有了大量的研究:语言模型融合、回溯、对偶学习
- 回溯中,target是自然单语数据,source是合成数据。因为要用自然数据训练MT中的语言模型模块,合成数据效果肯定不会很好
相关工作:
- Low resource language pairs can also be improved with synthetic data where the source is simply a copy of the monolingual target data.
- Sampling synthetic sources is more effective than beam search.
源语料合成:
- Greedy和Beam都是找到MAP(最大后验概率)输出的近似算法
- Beam在找到MAP输出上通常很有效,但这也会导致less rich translations:since it always favors the most likely alternative in case of ambiguity
- 作者认为上述问题,在数据增强,例如回溯的场景下,是个比较严重