论文笔记--ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora
1. 文章简介
- 标题:ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora
- 作者:Xuan Ouyang, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
- 日期:2021
- 期刊:arxiv preprint
2. 文章概括
文章提出了ERNIE-M模型,模型可通过单语言的语料将多语言的信息进行对齐,从而克服平行语料不足的缺陷。
3 文章重点技术
文章提出两种方法来增强模型对不同语言的知识对齐能力:CAMLM(Cross-attention masked language modeling)和BTMLM(Back-translation masked language modeling)。
3.1 CAMLM
CAMLM会基于平行语料将跨语言的语义表达进行对齐。简单来说,给定平行语料对 < s , t > &l