SUMMPIP:Unsupervised Multi-Document Summarization With Sentence Graph Compression(2020)

摘要


    获取多文档摘要(MDS)的训练数据既耗时又耗费资源, 因此目前的神经网络模型只能在有限的领域内进行训练。在本文中,我们提出了SummPip:一种用于多文档摘要的无监督方法, 该方法将原始文档转换为句子图,同时考虑语言和深度表示, 然后应用谱聚类得到多个句子簇最后对每个簇进行压缩生成最终摘要。 与以前的非监督方法相比具有竞争力,甚至可以与神经监督方法相比。 此外,与人工撰写的摘要相比,可以生成一致且完整的摘要。

1.引言


     文本摘要(TS)的目的是将长文档压缩成包含文档主题的短句。一般来说, TS有两种方法:①提取方法,即识别文本的突出部分,如单词、短语或句子,并将其作为摘要;②抽象方法,其中大多数依赖于神经方法,如指针生成器网络[]。 与单文档摘要不同, 多文档摘要(MDS)旨在将来自多个文本源的关键信息有效地集成到一个简明而全面的报告中。最新的MDS系统是基于有监督学习的,需要相对大量的标记训练数据。然而,获取训练数据既耗时又耗费资源。因此,现有的数据集只能用于有限的域。
    近年来,摘要系统的数量不断增加[2]。 最初是为机器翻译而开发的神经序列到序列模型的变体[3]在摘要任务。 尽管在摘要中使用深层神经模型付出了巨大的努力,但它们往往需要大规模的平行输入文本语料库和相应的输出摘要来直接监督。例如,CNN/每日邮报数据集2中有超过280000个训练示例,因此以这种规模获取真相标签的成本可能太高[4]。对于大多数现有的大型数据集,它们由一对摘要(如文本和源文本)组成,例如使用新闻标题作为新闻文章的摘要。
    在这种情况下, 无监督学习方法很有吸引力,因为它们不需要标记数据进行摘要。它们可以 分为神经方法和非神经方法。神经摘要方法利用深层神经网络生成摘要[2]。这些模型通常使用具有重建损失的自动编码器[5]进行训练 但是,autoencoder方法保留有助于重建原始文档的每个细节,这在MDS设置中不适用它们处理长文本的能力也有限。非神经方法倾向于在开发摘要系统时使用领域专家[2]。特别是,当前的无监督方法侧重于构建图来混合来自不同文档的句子,并利用文档之间的相关性来提取最具代表性的句子[6]。 然而,它们在整合更精细的语言信息方面受到限制
    由于MDS中的文档来自不同的来源,它们在表达观点时是冗余和重复的,而摘要只包含几个关键点。 我们认为可以根据句子之间的距离形成语义聚类,然后将每个聚类压缩成一个代表显著内容的句子。本文提出了一种基于句子图压缩的无监督多文档摘要方法SummPip。据我们所知,我们是第一个将句子压缩应用于MDS的人。本文主要贡献是:
  • SummPip是第一个将语言知识和深层神经表征结合起来构造句子图的无监督摘要方法。它假设可以通过压缩簇内的图来创建摘要语句。
  • 我们在两个MDS基准数据集上执行自动评估和人工评估。SummPip的性能明显优于其他无监督方法,并与最新的有监督神经模型进行了比较。
    

2.SummPip:用于多文档摘要的自动流水线


    我们的pipeline包括四个主要步骤:①文档处理。②构建结构化的句子图,其中节点对应于第一步生成的句子, 并根据句子之间的词汇关系和深层语义关系绘制边缘。③使用图聚类来获得图分区。④从提取的子图生成摘要文本。图1展示了我们的无监督MDS管道。我们在下面的小节中指定了每个步骤。
    (1)文本处理
    给定一组与主题相关的文档 目标是生成一个简洁且忠实于原始文档的摘要S。对于文档处理具体来说是连接文档并应用最小的文本处理(主要是句子),因为我们希望为后续处理保留原始文档。并且为了最后一步句子压缩保留所有停用词。这一步主要是调用了SpaCyNLP的模块,主要生成了一个句子的列表,作为句子图构建的输入。
     (2)句子图形结构
     目标是识别代表文档话语结构的成对句子连接。我们基于近似语义图(ADG)[]和深度嵌入技术构造了一个句子图。具体地说, 我们建立一个图(V,E),其中每个节点vi∈V表示一个句子,如果满足下列条件之一,节点vi和 是连通的,即它们的
    ① 动名词引用动词短语中提到事件时,通常在随后的句子中由动名词或名词短语指称为了认识这种关系,我们先从WordNet的派生形式链接中导出动词短语的名词形式,然后再利用在多维空间中学习到的单词表示来获得其语义相似的单词
    ②实体延续 第二个条件涉及词汇链以达到局部连贯的目的如果它们包含相同的实体类型(例如,组织、人员、产品),我们将在语句vi到语句vj之间插入一条边
    ③话语标记: 我们使用一组话语标记(例如,然而,同时,此外)来发现文档中两个相邻句子之间的话语关系
    ③句子相似性: 对句子的所有词向量取平均值来获得句子表示。句子相似度得分是通过两个句子向量的余弦相似度来计算的。
     (3)句子图聚类( 用主题代替?)
     大多数图聚类方法都试图基于连接节点的边来识别图中的节点群。我们采用谱聚类的方法: 首先根据上述句子图得到拉普拉斯矩阵,然后计算拉普拉斯矩阵的前k个特征向量,为每个句子定义一个特征向量。然后我们在这些特征上运行k-means把这些句子分成k类
     (4) 摘要的多句压缩
     多句压缩(MSC) 从每个包含一组语义相关语句的簇中生成一个摘要语句 。我们使用MSC作为方法的最后一步,从句子簇生成摘要。一种典型的方法[7]是构建一个单词图,并将单词的最短路径作为摘要。我们使用这种方法的一个扩展版本[8] ,通过考虑关键短语来调整压缩过程,因此具有关键短语的单词路径比其他单词路径得到更高的分数 。它从句子簇中产生一些压缩的摘要 ,在这些摘要中,我们选择得分最高的摘要作为最终输出

3.实验


     我们使用ROUGE度量[16]来量化SummPip在Multi-News和DUC-2004上的性能。
    (1)数据集:
  • Multi News[15],是MDS的一个大规模数据集。训练数据只用于学习词向量,对5622个文档集的测试数据进行评估。我们将文档的大小截断为500个标记,因为MDS上的实验表明,增加文档长度并不能显著提高性能[15]。
  • DUC-2004[17],这是一个基准MDS数据集。每个实例被截断为1500tokens。数据集的详细统计见表2。
    (2)实验设置    
    我们将动?名词中最相似的单词数设置为10。为了检测相邻句子之间的话语关系,我们任意定义了39个话语标记语,并将它们作为信号。句子相似度的阈值为0.98。我们使用sklearn中的spectrallclustering方法进行图聚类。 聚类数是参考摘要中的平均句子数 多新闻为9句,DUC-2004为7句 在聚类压缩步骤中,我们将用于最佳压缩的最小字数的超参数α设置为5(多新闻)和14(DUC)。我们还进行了加权句子图的实验,其中的权重是两个句子之间的相似度得分。 然而,我们的实验结果显示与未加权图相比没有任何改善
    (3)基线
     与以下基线比较:Lead-3是许多新闻摘要任务的基线方法,因为重新评估者发现新闻摘要偏向开始部分。LexRank [9],TextRank [10],MMR[11]和Centroid[12]是无监督方法,而前两个是基于图的,其他两个是基于相似性的方法。我们还引入了一些强有力的监督基准,包括PG-Original[1],PG-MMR[13],Copy-Transformer[14]和Hi-MAP[15]。 它们都是神经总结模型,其中Hi-MAP是Multi-News上最新报道的神经方法。
    (4)结果
     表1显示了Multi-News和DUC上的ROUGE结果。 与以前在Multi-News上的无监督方法相比,我们的方法产生了明显更好的结果,包括强大的质心基线, 并且与有监督的深度神经模型具有很高的竞争力(虽然没监督好) 对于DUC,SummPip也表现出良好的性能,即使它不胜于提取整个句子的Centroid。 同时,与两个数据集上的监督神经模型相比,我们的方法显示出非常接近的性能, 而无需任何繁重的学习过程

4.人类分析


    考虑生成摘要的以下方面。
    ①流利性:流利性有两个方面,即 句内流利性和句子连贯性
    ② 一致性: 反映系统摘要与源文本是否一致
    ③覆盖率:这一方面表示 压缩文本是否覆盖源文档中最显著的信息
    ④冗余:它限定了在减少冗余信息方面编写或生成摘要的程度。高质量的摘要不应包含详细的描述或重复的信息。人工注释者阅读 75份随机抽样 的文档, 并对参考摘要和系统摘要 进行1-5分的评分(1分是最差的,5分是最好的)。注释者不知道哪些是人类写的。他们也被要求给出他们对成对摘要的偏好。
    结果见图2。摘要在一致性和覆盖率上与手工摘要一致,而在流利性和冗余性上与手工摘要的一致性较差。这意味着SummPip能够检测文档中的重要内容并生成准确的摘要,类似于人类编写的内容。 注释者评论说,在大多数情况下,机器生成的摘要对他们来说是显而易见的。这也反映在流利度和冗余度的5分分数较低。话虽如此,我们的模型得分上限区域的峰值,即3分和4分,表明我们的模型并没有损害摘要的可读性和简洁性。在考察了总结的中间结果之后,我们发现总结中的冗余是由于模型在分句时的偶然失败造成的,这会影响后续的分析过程。我们相信,如果我们改进文本处理步骤,流利度和冗余度分数将会提高;我们将把这个留到进一步研究中。除此之外,还有13票支持我们的摘要,62票支持黄金摘要。这对我们来说并不奇怪;相反,它表明了SummPip在生成高质量摘要方面的巨大潜力。图3是SummPip生成的摘要的示例,与参考摘要5相比。FCCR是上述四个标准的简称。金色摘要中的每一条显著信息都被赋予不同的颜色,以突出它们在系统摘要中的存在。

5.总结


    我们提出了SummPip,这是一种新颖的多文档摘要无监督方法,其中我们构建了一个句子图,应用图聚类和句子压缩来获得分区的摘要。 值得注意的是,SummPip的主要新颖之处在于句子图和句子压缩的组合,就我们所知,这在无监督的多文档摘要的文献中首次得到利用。
    在Multi-News和DUC-2004上进行的实验表明,我们的方法是有效的,甚至可以与强大的监督神经方法相媲美。 此外,人工评估表明我们的方法在产生高质量摘要方面的巨大潜力。 将来,我们计划在句子图构建阶段添加一种排名机制,并在压缩步骤中应用自动编码器以获取更多抽象摘要。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值