【论文解读】融入预训练机制的自然语言生成-MASS

最新推荐文章于 2024-09-12 21:16:01 发布

王小小小草

最新推荐文章于 2024-09-12 21:16:01 发布

阅读量1.4k

点赞数 2

分类专栏： NLP 文章标签：人工智能自然语言生成 Bert NlP

本文链接：https://blog.csdn.net/sinat_33761963/article/details/103469318

版权

本文解读了一篇南科大和微软的论文，介绍了一个名为MASS的模型，它通过预训练序列模型进行文本生成。MASS结合了transformer的encoder和decoder，使用遮盖词策略，类似于BERT的mask机制，但有所不同。论文在机器翻译、摘要生成和对话生成等任务上展示了优秀表现，并提供了开源代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔者：王小草
日期：2019年12月10日

1.前言

文本要介绍一篇来自南科大和微软同学的论文，提出了用遮盖词的预训练序列模型来进行文本生成，即使用当前惯用的套路：（1）先用大语料无监督地预训练模型；（2）再在文本生成的任务上进行fine tuning。并在常用的文本生成任务（机器翻译、摘要生成、对话生成）上进行评测，具有优秀的表现。

在大语料上预训练大模型自然是不陌生的，妇孺皆知的elmo, GPT, Bert, 以及后来越来越庞大的变体们，几乎已在大部分NLP任务上建功立业。但我们知道，直接使用Bert在序列生成的任务上，是实打实的雷区。因此本文介绍的论文提出masked sequence to sequence pre-training（MASS）model, 使用transformer的encoder与decoder作为序列生成预训练的基础模型，并借鉴bert的mask机制进行词的预测作为预训练任务；预训练的模型再在具体的生成任务（翻译，摘要，对话生成）上进行微调，从而颇见成效。

论文题目：MASS: Masked Sequence to Sequence Pre-training for Language Generation
代码地址：https://github.com/microsoft/MASS.

来看看具体的做法~

2.如何pre-train

任何时候，做预训练首先要决定两件事情，第一选择什么样的模型结构；第二选择什么任务。拿BERT来说，模型结构选择的是transformer的encoder部分，任务选择的是masked language model与next sentence prediction。
在以上两点确定之后，然后确定可以寻找什么样的数据，并预处理成任务需要的格式进行训练。下面依次讲一下Mass在这三方面的情况。

2.1模型结构

模型结构是传统的transformer，包含6层的encoder, 6层的decoder, embedding size 与hidden size为1024， feed-forward filter size为4096。具体可以参见论文“Attention is all you need, 2017, Vaswani et”,在此不再赘述。当然也可以选择其他的结构，只要是sequence to sequence结构即可