神经机器翻译(NMT)的成功往往依赖于大量高质量的双语语料作为训练数据。如果是蒙古语、尼泊尔语这些小语种,无法提供足够多的双语数据,更极端的现实情况是,有些语言几乎没有任何双语预料,这种情况下NMT就无能为力了。
松散定义:当并行句子数量在10,000或更少时,可以认为语言对资源不足。注:现代NMT系统现在有数亿个参数!
挑战:
数据: 来源数据、评估数据集
建模:不清晰的学习范式、领域适应、模型泛化能力
Why Low Resource MT Is Interesting?
- 它是关于用较少标记的数据进行学习。
- 它是关于建模结构化输出和组合学习。
- 这确实是一个需要解决的问题
数据收集的挑战
- 非常昂贵和缓慢。
- 很难产生高质量的翻译
监督式学习
半监督学习