跨语种预训练语言模型

GelaBute

已于 2022-06-23 15:39:46 修改

阅读量504

点赞数 1

文章标签：语言模型自然语言处理深度学习

于 2022-06-17 15:53:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41196438/article/details/123543184

版权

跨语种预训练语言模型

XLM
XLM-R

XLM

个人理解：在Bert基础上，XLM = 跨语言 + 预训练优化

1. 语料准备

所有语种共用一个词表，由Byte Pair Encoding (BPE) 创建
为了平衡语料，优化了语料句子采样： $q_i = \frac{p^\alpha_i}{\sum_{j=1}^{N}p^\alpha_j}$ with $p_i = \frac{n_i}{\sum_{k=1}^{N}n_k}$
其中 $n_i$ 是每个语言的句子数量， $p_i$ 是这个语言句子数占据总句子数的比例， $\alpha$ 是调节引子，一般设置0-1之间，q是放缩后的采样比例

2. 预训练

（1）Causal Language Modeling (CLM)

单语种，无监督，给定句中历史词预测当前词概率 $P(w_t|w_1, w_2...w_{t-1}, \theta)$

（2）Masked Language Modeling (MLM)

单语种，无监督
替换类似于Bert，随机采样15%的token，80%用[MASK]，10%随机替换，10%不变
但是输入文本流由多个句子组成而非句子对
为了平衡token出现频次，对高频词二次采样：多项式分布采样，权重与 invert frequencies 的平方根成反比

在这里插入图片描述

（3）Translation Language Modeling (TLM)

双语平行语料
token mask在两个语言句子中都进行
将平行语料句子拼起来共同预测缺失token

XLM-R

个人理解：XLM-R = XLM + RoBERTa

curse of multilinguality：
- 固定模型Capacity，语言种类越多，跨语言性能在低资源语言上会越好；但到了某个点后，单语和跨语言基准测试的总体性能下降
- 能通过提高模型Capacity缓解，但与目标更有限的计算预算来提高性能冲突

1.语料准备

用 CommonCrawl 数据进行训练（比XLM用的Wiki数据量更大）
用Sentence Piece Model（SPM）生成词表
采用与XLM同方法的采样均衡高、低资源语料（ $\alpha=0.3$ ）

2. MLM

聚焦无监督跨语言，只用MLM进行预训练
取消了XLM中Language Embedding

3. Scaling to 100 language

基于100中语言预训练，并将一些语言用更常用的语种替代
在消融实验中，保证所有语种集合都覆盖合适的范围，都包含高资源与低资源语言

4. Scaling the Amount of Training Data

高资源语言转储1次，低资源12次增加dataset size
语种的数据量太少无法进行无监督表示学习，通常训练BERT模型的最小文本数据：几百MiB

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
跨语种预训练语言模型

预训练语言模型
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。