[文献阅读]—Revisiting Language Encoding in Learning Multilingual Representations

最新推荐文章于 2024-03-29 13:15:00 发布

Muasci

最新推荐文章于 2024-03-29 13:15:00 发布

阅读量573

点赞数

分类专栏：文献阅读之家文章标签：机器翻译深度学习自然语言处理

本文链接：https://blog.csdn.net/jokerxsy/article/details/121993594

版权

文献阅读之家专栏收录该内容

51 篇文章 5 订阅

订阅专栏

前言

在这里插入图片描述
论文地址：https://arxiv.org/abs/2102.08357
代码地址：https://github.com/lsj2408/XLP

前人工作&存在问题

在多语言机器翻译中，前人通过1. 在source端开头加入language tag；2. 给token embedding加上language embedding来给模型提供语种信息。经过本文实验发现，之前的方法不能很好地描述单词-语种之间的交互，而是反映了一个单词在一个语种中的出现频率。

具体来说：

language symbol:
- 《Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation》：< target_language > source sentence + target sentence
- 《Multilingual Translation with Extensible Multilingual Pretraining and Finetuning》/《Multilingual Denoising Pre-training for Neural Machine Translation》：source端加入< source_language > source sentence +< target_language > target sentence
language embedding:
- 略

不管是symbol还是embedding，token和语种信息都会self-attention模块发生交互，以embedding为例：公式1最后一项对于每一个token对来说都是一样的，经过softmax，效果不变；中间两项计算了token embedding和language embedding映射过后的点积，本文发现得到的结果并不能反映语种信息，而是跟该语种中token的出现频率有关（如图1所示）
在这里插入图片描述

公式1 self-attention模块中的q-k score

在这里插入图片描述

图1 token embedding和languaege embedding经映射过后的点积

本文贡献

对每一个语种的句子，在送入模型embedding层之后，再经过一个language-specific的projection，再送入模型。

具体方法

第一步：对于输入的语种A的句子，经过embedding，然后用一个language specific的dxd维的矩阵对每一个token embedding进行映射。

第二步：再加上positional embedding，进一步送入模型，self-attention模块的计算公式变为了：

在这里插入图片描述

公式2 本文提出的方法，在self-attention模块中的q-k score

文中说映射矩阵可以被看做原来映射矩阵的解耦？

具体实验

XNLI结果\cross-lingual transfer gap

Cross-Lingual Transfer指的是先pretrain，然后在english NLI上finetune，再在所有语种上test；
Translate-Train指的是先pretrain，然后在每个语言的NLI上finetune并test；
XLP好！
在这里插入图片描述

图2 XNLI结果

XLP迁移能力高！
在这里插入图片描述

图3 英语和其它语言的多语言迁移差异

IWSLT MT

MT实验是直接在IWSLT数据集上训练三种不同的MT模型。
XLP好！
在这里插入图片描述

图4 IWSLT MT结果

训练效率比较

XLP中的language-specific projection带来了明确的语种信息，使得训练更加容易
在这里插入图片描述

图5 训练效率比较

XLP是否能描述不同语种的差异？对于同一语种中的token，是否能捕捉更强的语义？

首先：取了一些英语的token，经过embeddin，然后分别经过15种语种的additive language embedding（XLM）和XLP projection，得到15种token embedding，计算它们之间的cosine similarity，发现XLP能够赋予同一个token更为明显不同语种信息。
其次：取三类英语单词： [happy, glad, sad], [car, plane, bike], [meat, food, rice]，经过embedding，然后分别经过XLM和XLP的english的language embedding方式，计算单词之间的cosine similarity，发现XLP更精准捕捉语义。
在这里插入图片描述