【论文解读】融入预训练机制的自然语言生成-MASS

本文解读了一篇南科大和微软的论文,介绍了一个名为MASS的模型,它通过预训练序列模型进行文本生成。MASS结合了transformer的encoder和decoder,使用遮盖词策略,类似于BERT的mask机制,但有所不同。论文在机器翻译、摘要生成和对话生成等任务上展示了优秀表现,并提供了开源代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

笔者:王小草
日期:2019年12月10日

1.前言

文本要介绍一篇来自南科大和微软同学的论文,提出了用遮盖词的预训练序列模型来进行文本生成,即使用当前惯用的套路:(1)先用大语料无监督地预训练模型;(2)再在文本生成的任务上进行fine tuning。并在常用的文本生成任务(机器翻译、摘要生成、对话生成)上进行评测,具有优秀的表现。

在大语料上预训练大模型自然是不陌生的,妇孺皆知的elmo, GPT, Bert, 以及后来越来越庞大的变体们,几乎已在大部分NLP任务上建功立业。但我们知道,直接使用Bert在序列生成的任务上,是实打实的雷区。因此本文介绍的论文提出masked sequence to sequence pre-training(MASS)model, 使用transformer的encoder与decoder作为序列生成预训练的基础模型,并借鉴bert的mask机制进行词的预测作为预训练任务;预训练的模型再在具体的生成任务(翻译,摘要,对话生成)上进行微调,从而颇见成效。

论文题目:MASS: Masked Sequence to Sequence Pre-training for Language Generation
代码地址:https://github.com/microsoft/MASS.

来看看具体的做法~

2.如何pre-train

任何时候,做预训练首先要决定两件事情,第一选择什么样的模型结构;第二选择什么任务。拿BERT来说,模型结构选择的是transformer的encoder部分, 任务选择的是masked language model与next sentence prediction。
在以上两点确定之后,然后确定可以寻找什么样的数据,并预处理成任务需要的格式进行训练。下面依次讲一下Mass在这三方面的情况。

2.1模型结构

模型结构是传统的transformer, 包含6层的encoder, 6层的decoder, embedding size 与hidden size为1024, feed-forward filter size为4096。具体可以参见论文“Attention is all you need, 2017, Vaswani et”,在此不再赘述。当然也可以选择其他的结构,只要是sequence to sequence结构即可

2.2任务类型

论文的创新点应是在任务类型上。受bert启发,也采用masked languge model 机制,但在如何mask的机制上有所不同。要明确mask机制,我们就从如何设置输入特征和输出目标来下手解释。

encoder端输入特征:
假设输入的句子为长度8个token:x={x1,x2,…,x8} ;
将位置在v到u之间的token进行遮盖,即对应位置上的to

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值