论文地址:https://arxiv.org/abs/1902.09243
简介
该论文自称是首个将BERT应用在文本生成任务上的文章,论文讲解的非常的清晰详细,模型的框架依然使用经典的encoder-decoder形式,encoder层使用了BERT,生成句子向量,decoder层思想比较新颖,分为两步,第一步先使用transformer生成一个基础文摘,第二步将这个句子的每个词都做一次mask,再传给一个BERT,进行mask的预测,最终得到最后生成的句子,decoder的BERT的输入除了有mask处理过的句子,还有encoder生成的句子向量。
特点
论文的创新点体现在了BERT的使用上,encoder使用BERT提取特征,decoder时先通过transformer生成初步的结果,在对这个结果做mask,通过另一个bert做预测,通过这样的形式实现了,在decoder时也考虑句子两端的信息。
结构分析
上图所示模型的任务是文章(Document)生成文摘(Summary)
实际的生成过程为:Document→Summary Darft→Summary
图中,左边部分是decoder部分,使用BERT做特征抽取,生成输入文本的向量(Document embedding),中间部分是encoder的第一部分,transformer生成基础文摘(Summary Draft) ,再将生成的基础文摘的每个单词做mask处理,传递给右侧也就是encoder的第二部分,右侧BERT模型对mask的句子重新进行预测,最后得到新的句子,也就是最后生成的文摘。