作者:景
单位:燕山大学
前言
生成式摘要神经网络模型很灵活,可以产生连贯的摘要,但它们有时不可靠并且难以控制。虽然以前的研究试图提供不同类型的指导来控制模型输出和增加可信度,但尚不清楚这些策略如何相互比较和对比。 在本文中,作者提出了一个通用且可扩展的引导式摘要框架GSum,它可以有效地将不同种类的外部引导作为输入,并在几个不同的品种上进行实验。 实验表明,该模型是有效的,在使用突出显示的句子作为指导时,根据 ROUGE 在 4 个流行的摘要数据集上实现了最先进的性能。 此外,作者提出的引导式摘要模型可以生成更可信的摘要,并展示了不同类型的引导如何生成质量不同的摘要,从而为学习模型提供一定程度的可控性。
方法
模型
模型的整体架构如下图所示。
首先是源文档输入,经过分词工具转Embedding之后输入一个emmm,一个Transformer Encoder里,假定每一层的输入信息为 X X X( X X X是源文档的嵌入,用 G G G表示指引文本的嵌入信息),则
X = L N ( X + S e l f A t t e n t i o n ( X ) ) X = L N ( X + F e e d F o r w a r d ( X ) ) X = LN(X+SelfAttention(X))\\ X=LN(X+FeedForward(X))\\ X=LN(X+SelfAttention(X))X=LN(X+FeedForward(X))
同样的,针对指引文本的嵌入信息G,也有
G = L N ( X + S e l f A t t