生成式预训练之MASS

本文介绍了MASS模型,它是在BERT不适合生成任务后提出的,通过预测连续片段改进序列到序列建模。文章讨论了预训练设置、实验结果,特别是在无监督机器翻译和低资源机器翻译任务上的优势,并分析了k值选择的影响。
摘要由CSDN通过智能技术生成

点击下面卡片关注我呀,每天给你送来AI技术干货!

作者:潘小小(字节跳动AI Lab算法工程师)

文末可阅读原文

今天和大家一起简单回顾一下2019年发表的《MASS: Masked Sequence to Sequence Pre-training for Language Generation》这篇论文。MASS产生的背景,是在BERT取得重大关注后,发现BERT并不适用于生成式任务之后作者将BERT中的预测token改为了预测fragment(连续片段),同时采取了整个sequence-to-sequence modeling,取代了BERT仅仅使用encoder作为建模的做法,使得MASS更加适合生成式的任务。

1. MASS预训练框架

图中的"_"指的是[MASK],可以看到,在encoder端被mask掉的连续片段x3-x6,在decoder端作为目标输出。

用公式表达其训练目标为:

其中u:v代表一段连续token片段,文中还定义了一个超参数k,k指的是片段包含的token数


MASS = Soft mix (BERT, GPT)

作者还提供了另一个有趣的视角,来帮助理解MASS

在上图中,(a)代表的是k=1的情况,被mask掉的连续片段就“退化”成一个token,这种情况就等价于BERT (b)代表的是k=m的情况,也就是整个sequence都被mask,这种情况就等价于GPT。

2. 实验

[预训练阶段]

  • 和BERT类似,被选中mask掉的连续片段中的每一个token,有80%的概率是正常的[MASK] token,10%的概率是被随机token替换,10%的概率保持原来的token。

  • k取值会使得大概50%的token被mask

[下游任务: 无监督Machine Translation]

仅使用单语+back translation构造伪平行语料用于fine-tune,得出的结果如下:

MASS和其他无监督翻译的对比

MASS和其他预训练方法的对比

[下游任务: 低资源Machine Translation]

可以看出,在相同的平行数据量的情况下,使用MASS预训练的参数进行初始化,明显高于直接训练的baseline。

3. 分析

[关于k的取值]

经过实验发现,k取值为50%平均总长度时,综合效果最好

作者:潘小小

字节跳动AI-Lab NLP算法工程师,目前专注多语言机器翻译,法国留学文艺女青年,现居上海。知乎id: 潘小小


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

点击上面卡片,关注我呀,每天推送AI技术干货~

整理不易,还望给个在看!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值