https://aclanthology.org/2020.acl-main.536.pdf
【Emerging Cross-lingual Structure in Pretrained Language Models】论文笔记 - 知乎
Motivation
论文主要研究了多语言掩码语言模型(multilingual masked language modeling,简称MLM)的训练问题,即在多种语言的文本上训练单一模型,并探讨了这些模型在跨语言迁移任务中表现出色的几个因素。Multilingual Bert和XLM这种多语言预训练模型在跨语言迁移上有惊人的能力,尤其是零样本多语言迁移(zero-shot cross-lingual transfer),即指使用涵盖多种语言的语料(注:非平行语料)对语言模型进行预训练,在应用到特定下游任务时,仅在相应任务的英文数据集上fine-tune,就可以迁移到其他语言。这种跨语言迁移的能力对于很多仅仅具有英文数据集的下游任务是十分友好的。因为模型不需要额外标注多语言的数据,