笔者:王小草
日期:2019年12月10日
1.前言
文本要介绍一篇来自南科大和微软同学的论文,提出了用遮盖词的预训练序列模型来进行文本生成,即使用当前惯用的套路:(1)先用大语料无监督地预训练模型;(2)再在文本生成的任务上进行fine tuning。并在常用的文本生成任务(机器翻译、摘要生成、对话生成)上进行评测,具有优秀的表现。
在大语料上预训练大模型自然是不陌生的,妇孺皆知的elmo, GPT, Bert, 以及后来越来越庞大的变体们,几乎已在大部分NLP任务上建功立业。但我们知道,直接使用Bert在序列生成的任务上,是实打实的雷区。因此本文介绍的论文提出masked sequence to sequence pre-training(MASS)model, 使用transformer的encoder与decoder作为序列生成预训练的基础模型,并借鉴bert的mask机制进行词的预测作为预训练任务;预训练的模型再在具体的生成任务(翻译,摘要,对话生成)上进行微调,从而颇见成效。
论文题目:MASS: Masked Sequence to Sequence Pre-training for Language Generation
代码地址:https://github.com/microsoft/MASS.
来看看具体的做法~
2.如何pre-train
任何时候,做预训练首先要决定两件事情,第一选择什么样的模型结构;第二选择什么任务。拿BERT来说,模型结构选择的是transformer的encoder部分, 任务选择的是masked language model与next sentence prediction。
在以上两点确定之后,然后确定可以寻找什么样的数据,并预处理成任务需要的格式进行训练。下面依次讲一下Mass在这三方面的情况。
2.1模型结构
模型结构是传统的transformer, 包含6层的encoder, 6层的decoder, embedding size 与hidden size为1024, feed-forward filter size为4096。具体可以参见论文“Attention is all you need, 2017, Vaswani et”,在此不再赘述。当然也可以选择其他的结构,只要是sequence to sequence结构即可
2.2任务类型
论文的创新点应是在任务类型上。受bert启发,也采用masked languge model 机制,但在如何mask的机制上有所不同。要明确mask机制,我们就从如何设置输入特征和输出目标来下手解释。
encoder端输入特征:
假设输入的句子为长度8个token:x={x1,x2,…,x8} ;
将位置在v到u之间的token进行遮盖,即对应位置上的to