[文献阅读]—Revisiting Language Encoding in Learning Multilingual Representations

前言

在这里插入图片描述
论文地址:https://arxiv.org/abs/2102.08357
代码地址:https://github.com/lsj2408/XLP

前人工作&存在问题

在多语言机器翻译中,前人通过1. 在source端开头加入language tag;2. 给token embedding加上language embedding来给模型提供语种信息。经过本文实验发现,之前的方法不能很好地描述单词-语种之间的交互,而是反映了一个单词在一个语种中的出现频率。

具体来说:

  • language symbol:
    • 《Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation》:< target_language > source sentence + target sentence
    • 《Multilingual Translation with Extensible Multilingual Pretraining and Finetuning》/《Multilingual Denoising Pre-training for Neural Machine Translation》:source端加入< source_language > source sentence +< target_language > target sentence
  • language embedding:

不管是symbol还是embedding,token和语种信息都会self-attention模块发生交互,以embedding为例:公式1最后一项对于每一个token对来说都是一样的,经过softmax,效果不变;中间两项计算了token embedding和language embedding映射过后的点积,本文发现得到的结果并不能反映语种信息,而是跟该语种中token的出现频率有关(如图1所示)
在这里插入图片描述

公式1 self-attention模块中的q-k score

在这里插入图片描述

图1 token embedding和languaege embedding经映射过后的点积

本文贡献

对每一个语种的句子,在送入模型embedding层之后,再经过一个language-specific的projection,再送入模型。

具体方法

第一步:对于输入的语种A的句子,经过embedding,然后用一个language specific的dxd维的矩阵对每一个token embedding进行映射。

第二步:再加上positional embedding,进一步送入模型,self-attention模块的计算公式变为了:

在这里插入图片描述

公式2 本文提出的方法,在self-attention模块中的q-k score

文中说映射矩阵可以被看做原来映射矩阵的解耦?

具体实验

XNLI结果\cross-lingual transfer gap

Cross-Lingual Transfer指的是先pretrain,然后在english NLI上finetune,再在所有语种上test;
Translate-Train指的是先pretrain,然后在每个语言的NLI上finetune并test;
XLP好!
在这里插入图片描述

图2 XNLI结果

XLP迁移能力高!
在这里插入图片描述

图3 英语和其它语言的多语言迁移差异

IWSLT MT

MT实验是直接在IWSLT数据集上训练三种不同的MT模型。
XLP好!
在这里插入图片描述

图4 IWSLT MT结果

训练效率比较

XLP中的language-specific projection带来了明确的语种信息,使得训练更加容易
在这里插入图片描述

图5 训练效率比较

XLP是否能描述不同语种的差异?对于同一语种中的token,是否能捕捉更强的语义?

首先:取了一些英语的token,经过embeddin,然后分别经过15种语种的additive language embedding(XLM)和XLP projection,得到15种token embedding,计算它们之间的cosine similarity,发现XLP能够赋予同一个token更为明显不同语种信息。
其次:取三类英语单词: [happy, glad, sad], [car, plane, bike], [meat, food, rice],经过embedding,然后分别经过XLM和XLP的english的language embedding方式,计算单词之间的cosine similarity,发现XLP更精准捕捉语义。
在这里插入图片描述

图6 不同语种的差异

在这里插入图片描述

图7 同语种不同token的语义

问题

  • XLP的参数量也是最多的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值