论文笔记--ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora
1. 文章简介
- 标题:ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora
- 作者:Xuan Ouyang, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
- 日期:2021
- 期刊:arxiv preprint
2. 文章概括
文章提出了ERNIE-M模型,模型可通过单语言的语料将多语言的信息进行对齐,从而克服平行语料不足的缺陷。
3 文章重点技术
文章提出两种方法来增强模型对不同语言的知识对齐能力:CAMLM(Cross-attention masked language modeling)和BTMLM(Back-translation masked language modeling)。
3.1 CAMLM
CAMLM会基于平行语料将跨语言的语义表达进行对齐。简单来说,给定平行语料对
<
s
,
t
>
<s, t>
<s,t>,模型会对目标语言t中的一些tokens进行掩码,并尝试仅通过源语言s来对掩码进行预测;另一方面,模型也会对源语言s中的一些tokens进行掩码,并尝试仅通过目标语言t来对掩码进行预测。CAMLM和普通的TLM机制(如XLM)的区别就是预测t的时候仅依赖s,而预测s的时候仅依赖t,如下图所示
3.2 BTMLM
为了解决平行语料数据不足的问题,文章提出了通过BTMLM来生成伪平行数据,然后再通过上述CAMLM对伪平行数据进行对齐。具体来说,我们首先生成伪平行数据:在单语言句子的末尾增加多个“MASK”占位符表示这是我们需要预测的目标语言的位置,然后我们让模型自己生成对应位置的token,得到伪平行语料。接下来的步骤和3.1的CAMLM相同。
4. 文章亮点
文章提出了CAMLM(cross-attention)强制模型通过一种语言预测另一种语言的token,从而达到多语言对齐的目的;此外文章提出的BTMLM可以通过生成伪平行数据有效解决平行语料不足的问题。实验表明,文章训练的ERNIE-M模型在多个跨语言benchmarks上达到了SOTA水平,可以帮助模型更好地进行不同语言之间的信息对齐。