贴一下汇总贴:论文阅读记录
论文链接:《A Survey on Low-Resource Neural Machine Translation》
一、摘要
神经方法在机器翻译方面已经达到了最先进的准确性,但由于收集大规模并行数据的成本很高。因此,针对并行数据非常有限的神经机器翻译 (NMT) 进行了大量研究,即低资源设置。在本文中,我们对低资源 NMT 进行了调查,并根据它们使用的辅助数据将相关作品分为三类:(1)利用源语言和/或目标语言的单语数据,(2)利用辅助语言的数据,以及(3)利用多模态数据。我们希望我们的调查能够帮助研究人员更好地理解这个领域,启发他们设计更好的算法,帮助行业从业者为他们的应用选择合适的算法。
二、结论
在本文中,我们提供了低资源NMT的文献综述。不同的技术根据辅助数据的类型进行分类:来自源/目标语言的单语数据、来自其他语言的数据和多模态数据。我们希望这项调查能够帮助读者了解该领域,并为他们的应用选择合适的技术。
尽管在调查的低资源NMT上已经做了很多努力,但仍然存在一些悬而未决的问题:
- 在多语言和迁移学习中,使用多少辅助语言和哪些辅助语言尚不清楚。LANGRANK [Lin等,2019]训练模型选择一种辅助语言。直观来看,使用多种辅助语言可能优于只使用一种,值得探索。
- 培训包含多种richresource语