论文笔记--ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolin

论文笔记--ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora

1. 文章简介

  • 标题:ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora
  • 作者:Xuan Ouyang, Shuohuan Wang, Chao Pang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang
  • 日期:2021
  • 期刊:arxiv preprint

2. 文章概括

  文章提出了ERNIE-M模型,模型可通过单语言的语料将多语言的信息进行对齐,从而克服平行语料不足的缺陷。

3 文章重点技术

  文章提出两种方法来增强模型对不同语言的知识对齐能力:CAMLM(Cross-attention masked language modeling)和BTMLM(Back-translation masked language modeling)。

3.1 CAMLM

  CAMLM会基于平行语料将跨语言的语义表达进行对齐。简单来说,给定平行语料对 < s , t > <s, t> <s,t>,模型会对目标语言t中的一些tokens进行掩码,并尝试仅通过源语言s来对掩码进行预测;另一方面,模型也会对源语言s中的一些tokens进行掩码,并尝试仅通过目标语言t来对掩码进行预测。CAMLM和普通的TLM机制(如XLM)的区别就是预测t的时候仅依赖s,而预测s的时候仅依赖t,如下图所示
CAMLM

3.2 BTMLM

  为了解决平行语料数据不足的问题,文章提出了通过BTMLM来生成伪平行数据,然后再通过上述CAMLM对伪平行数据进行对齐。具体来说,我们首先生成伪平行数据:在单语言句子的末尾增加多个“MASK”占位符表示这是我们需要预测的目标语言的位置,然后我们让模型自己生成对应位置的token,得到伪平行语料。接下来的步骤和3.1的CAMLM相同。

4. 文章亮点

  文章提出了CAMLM(cross-attention)强制模型通过一种语言预测另一种语言的token,从而达到多语言对齐的目的;此外文章提出的BTMLM可以通过生成伪平行数据有效解决平行语料不足的问题。实验表明,文章训练的ERNIE-M模型在多个跨语言benchmarks上达到了SOTA水平,可以帮助模型更好地进行不同语言之间的信息对齐。

5. 原文传送门

ERNIE-M: Enhanced Multilingual Representation by Aligning Cross-lingual Semantics with Monolingual Corpora

6. References

[1] 论文笔记–Cross-lingual Language Model Pretraining

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值