论文笔记--Cross-lingual Language Model Pretraining

最新推荐文章于 2024-07-18 21:56:03 发布

Isawany

最新推荐文章于 2024-07-18 21:56:03 发布

阅读量147

点赞数 1

分类专栏：论文阅读文章标签：论文阅读语言模型 bert nlp 自然语言处理

本文链接：https://blog.csdn.net/weixin_38124427/article/details/130873907

版权

论文阅读专栏收录该内容

80 篇文章 3 订阅

订阅专栏

论文笔记--Cross-lingual Language Model Pretraining

1. 文章简介
2. 文章导读
3. 文章亮点
4. 原文传送门
5. References

1. 文章简介

标题：Cross-lingual Language Model Pretraining
作者：Guillaume Lample, Alexis Conneau
日期：2019
期刊：arxiv preprint

2. 文章导读

2.1 概括

文章给出了两种跨语言模型(XLMs)的训练方法：一种为基于单语种数据的非监督学习，一种为基于平行语料库的监督学习。文章提出的XLMs模型在多个机器翻译和文本推理任务中实现了SOTA水平，且在低资源语言任务上实现了显著的性能提升。

2.2 文章重点技术

2.2.1 Shared sub-word vocabulary

文章提出的两种方法均基于Shared sub-word vocabulary。具体来说，令所有的语言共用同一个词表，其中词表由BPE(Byte Pair Encoding)创建。这样的好处为可以使不同语言中公共的子词（包括符号、数字、字母等）对齐，从而使得不同语言表示对齐。
文章采用多项式分布进行随机采样： $q_i = \frac {p_i^{\alpha}}{\sum_{j=1}^N p_j^{\alpha}}$ ，其中 $p_i$ 表示第 $i$ 种语言的token数占比， $N$ 表示共考虑了 $N$ 种语言。从而1）避免数据不平衡造成的低资源语言理解能力弱 2）防止低资源语言被BPE分割成字母。

2.2.2 无监督任务

Causal Language Modeling(CLM)：类似GPT[1]，文章基于生成式任务来进行模型预训练，即在 $t$ 时刻最大化概率 $P(w_t|w_1, \dots, w_{t-1}, \theta)$ 。
Masked Language Modeling(MLM)：类似BERT[2]，文章基于完形填空式任务来进行模型预训练。随机选择词表中15%的子词，对这些词1) 80%的概率替换为[MASK] 2) 10%的概率替换为随机子词 3） 10%概率不变。文章MLM任务和BERT的区别是BERT中只能输入两个句子，即NSP任务。但文章中每个输入可以包含任意数量的句子（只要总token不超过256），用[SEP]分隔。为了处理数据不平衡问题，文章类似上一节中对token进行了多项式分布的采样，从而保证模型可以学习到稀有词。MLM的示意如下图所示。

2.2.3 监督任务-Translation Language Modeling(TLM)

文章提出的另一种方法为基于TLM任务的监督训练。当给定平行双语语料库时，模型将两种语言对应的句子拼接，输入给模型。TLM的示意如下图所示。可以看到，英文和法语用language embeddings分隔，表示不同语种。特别注意，两个语言的position embedding分别从0开始，如下图中英文position embedding 为012345，接着法语的embedding又重置为为012…。
TLM