Cross-lingual Language Model Pretraining

本文探讨了跨语言语言模型的构建,包括共享词典的建立、因果关系和遮罩语言建模。还介绍了跨语言预训练在无监督机器翻译、低资源语言模型和无监督跨语言词嵌入中的应用,通过实验显示了跨语言模型预训练的有效性,特别是在XNLI跨语言分类任务上的优越性能。
摘要由CSDN通过智能技术生成

跨语言语言模型

构建共享词典
通过bpe创建多语言共享的词典,极大地提高了嵌入空间的对齐。
通过利用多项式分布从单语语料库中选择的句子群,利用句子群学习bpe
因果关系建模
训练一个Transformer模型
在transformer中,之前迭代的隐状态可以传递到当前batch中的第一个词中,从而使得每一个batch中的第一个词具有上下文语义,但是在跨语言中不能实行,所以为了简便令每个batch中的第一个词没有上下文语义。
遮罩语言建模
我们从文本流中随机的抽样15%的bpe词,80%的概率把它替换为mask,文本流中的词要根据多项式分布进行二次取样,文本流中词的权重与词的逆频率成正比
翻译语言建模
该模型不同于上面两个模型,利用到了平行句对。对源语言和目标语言都进行遮罩,沿用了遮罩语言建模。不考虑单语的文本流了,而是考虑到了平行句子的拼接。对源语言中的mask词进行预测时,不仅考虑该mask词的上下文,而且考虑其对齐的目标语言的上下文。
跨语言语言模型
训练两个无监督的模型要使用连续64个句子流(每个句子包含256个词)作为一个batch进行训练,一个batch包含从相同的语言中抽样出来的句子。当遮罩语言建模和翻译语言建模同时使用的时候,我们交替的使用两种建模方式。用相似的方法抽样语言对。

跨语言语言模型预训练

跨语言分类
在预训练transformer

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值