back translation时如何选取源语言生成方式

Sergey2018EMNLP_Understanding Back-Translation at Scale

摘要:

  • 采样/加噪的合成数据,比greedy/beam方法生成的数据训练效果更好
  • 研究了合成数据较之真正双语数据效果如何
  • 研究了各种domain effects

Intro:

  • 关于如何使用单语语料优化模型,已经有了大量的研究:语言模型融合、回溯、对偶学习
  • 回溯中,target是自然单语数据,source是合成数据。因为要用自然数据训练MT中的语言模型模块,合成数据效果肯定不会很好

相关工作:

  • Low resource language pairs can also be improved with synthetic data where the source is simply a copy of the monolingual target data.
  • Sampling synthetic sources is more effective than beam search.

源语料合成:

  • Greedy和Beam都是找到MAP(最大后验概率)输出的近似算法
  • Beam在找到MAP输出上通常很有效,但这也会导致less rich translations:since it always favors the most likely alternative in case of ambiguity
  • 作者认为上述问题,在数据增强,例如回溯的场景下,是个比较严重
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值