引言
预训练语言模型在各种 NLP 下游任务中发挥着重要作用,目前语言模型已经逐渐从单语扩展到多语言,并且已经证明了其在跨语言 NLP 任务上的优越性能。
目前多语言预训练模型的训练数据主要有两种,一种是每种语言的单语数据,另一种是互为翻译的双语平行数据。为了在同一语义空间构建不同语言的表示,之前的工作主要集中在两个预训练任务上:Multilingual Masked Language Model(MMLM)和 Translation Language Model(TLM),分别对应单语和双语数据的预训练任务。
MMLM 是 Masked Language Model(MLM)的多语言版本,在共享语义空间中对每种语言分别建模;TLM 则对拼接后的双语语料进行 MLM 任务,通过 self-attention 机制隐式地捕捉双语语料之