生成式摘要调研

最新推荐文章于 2023-01-17 15:48:16 发布

The Crooked Man

最新推荐文章于 2023-01-17 15:48:16 发布

阅读量1.4k

点赞数 1

分类专栏：组会记录文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/qq_42920313/article/details/120174390

版权

本文探讨了对话摘要中的共指消解问题，指出其在多说话人交互中的重要性。文章介绍了利用图神经网络（GNN）融合共指信息以提升摘要模型的准确性，以及通过数据增强策略来解决训练数据不足的问题。同时，提出了通过GNN和共指指导的注意力机制来增强编码表示。研究发现，这些方法能有效提高事实一致性，改善对话摘要的质量。

摘要由CSDN通过智能技术生成

1、Coreference-Aware Dialogue Summarization

在一个经典文章上做出实验。
定义新的评价方式——很难，不要做过多讨论
看指代消解对摘要是否影响很大，问题——要自己标数据集，查找是否有相应的语料
图网络建立，节点间的重合。在这方面进行优化
看一下指代消解本身是否有意义，值不值得做。
看新的文章有没有类似的事情。
确认好：（1）有数据集（2）目前的得分一般
分享论文时，要深入理解一篇文章。

把共指信息通过GNN融入到系统中，提升factual correctness
创新点：首次通过GNN将共指信息融入到对话摘要中（之前只有对文档进行共指消解）
可以做出改进的地方：
在GNN结构上进行改进，添加其他语义信息，定义新的评价方式…
模型受共称消解质量的影响，如果共称消解质量低，模型的效果会被影响。
在这里插入图片描述

在这里插入图片描述

摘要

目前的对话摘要存在的问题有：非结构信息、说话人之间的非正式交互、随着对话发展说话人角色的动态变化。这些问题产生了复杂的共指关系。这篇文章调查了多种方式，关于详细地融合了共指信息在神经生成式对话摘要模型中，去解决这些问题。
研究结果表明融入共指信息在对话系统中是有作用的，对事实正确性的评估结果表明，这种共指感知模型更擅长跟踪对话者之间的信息流，并将准确的状态/动作与相应的对话者和人物提及相关联。

介绍

总结

模型：用GNN提取潜在的共指信息：共指注意力层，指导预测分析
数据集：SAMSum

原文

研究历史：
Most prior work focuses on summarizing well-organized single-speaker con- tent such as news articles (Hermann et al., 2015) and encyclopedia documents (Liu* et al., 2018)
on the popular benchmark corpus CNN/Daily Mail (Hermann et al., 2015), Liu and Lapata (2019) explored fine-tuning BERT (De- vlin et al., 2019) to achieve state-of-the-art per- formance for extractive news summarization, and BART (Lewis et al., 2020) has also improved gen- eration quality on abstractive summarization.
相比文档摘要的情况，对话摘要没有收到多少的关注。Unlike documents, conver- sations are interactions among multiple speakers, they are less structured and are interspersed with more informal linguistic usage (Sacks et al., 1978). Based on the characteristics of human-to-human conversations (Jurafsky and Martin, 2008)。对话摘要的挑战包括：(1)多说话人，对话者之间的交互式信息交换意味着重要信息在说话者和对话轮次之间来回参考。（2）说话人角色的转换，多轮对话通常包含频繁的角色转换，从一种说话人的类型到另一种。（3）无处不在的指称表达：说话者除了指代自己和彼此外，还提到第三方的人、概念和对象。此外，指称也可以采用回指(anaphora)或下指(cataphora)等形式，其中使用了代词，使参考链更难以追踪。如果对共指信息没有足够的理解，基础摘要器就无法将提及与其前因联系起来，并在生成中产生不正确的描述。从上述语言特征来看，对话具有复杂共指的多个内在来源，促使我们明确地考虑对话总结的共指信息，以更恰当地建模上下文，更动态地跟踪整个对话中的交互信息流，并实现多跳对话推理的潜力。
过去的工作在对话摘要中注意在建模对话主题和对话动作。(Goo and Chen, 2018; Liu et al., 2019; Li et al., 2019; Chen and Yang, 2020).很少明确利用来自共指信息的特征。另一方面，大规模预训练语言模型仅用于隐式建模低级语言知识，例如词性和句法结构。(Tenney et al., 2019; Jawa- har et al., 2019). 如果没有直接训练提供特定和显式语言注释的任务，例如共指解析或语义相关推理，模型性能仍然低于语言生成任务。(Dasigi et al., 2019). 因此这篇文章提出了通过详细地融合共指信息的生成式文本摘要模型。因为实体之间通过共指链来连接，我们推测添加一个图神经网络层可以提取潜在信息，从而增强上下文表达。文章探索了两种参数有效的策略：一个是用额外的共指指导的注意力层(coreference-guided attention layer)，另一种方法是通过进行探测分析来增强我们的共指注入设计，从而巧妙地增强了 BART 有限的共指解析能力。在SAMSum上数据集的表示验证了模型是有效的。此外，人类评估和错误的分析表明我们的模型产生了与事实一致的摘要。

对话共指消解

因为普通的摘要数据集没有包含共指标注，自动共指消解需要处理样本。
Neural approaches(Joshi et al., 2020) 展示了令人深刻的能力在文档共指消解上。然而他们仍然是对话场景的次选择(Chen et al., 2017)，没有大规模的标注的对话预料对于迁移学习。
当采纳文本共指消解模型(Lee et al., 2018; Joshi et al., 2020) 在对话样本，没有domain adaption时，我们观察到了一些问题：
（1）每段对话的第一个token是说话人，但有时没有被识别
（2）在对话中，一个共指链中的词会被拆解为多个。
（3）可能会把不同共指链的词划归到一起。
在这里插入图片描述
基于观察，为了提升对话指称消解，我们对自动输出进行了数据后处理（we conducted data post-processing on the automatic output):
（1）我们应用了模型集成策略来获得更准确的划分预测
（2）然后，我们为没有包含在任何链中的说话人角色重新分配了共指集群标签；
（3）我们比较了集群并合并了那些呈现相同共指链的集群。
基于人类评估关于处理的数据表明，这个后处理减少了共指任务的错误性达到了19%

Coreference-Aware Summarization

总结

用共指特征作为辅助来提升编码器，具体做法为：
（1）构建一个GNN网络，节点表示实体，边表示相关性
（2）用GCN进行迭代更新
（3）通过注意力机制将共指信息融入进representation中
（4）将提取出的信息替换成多头注意力机制中的头，进行自回归解码。

原文

在这一个模型中，我们采纳了一个神经网络模型对于生成式摘要，并且调查了融合入不同共指信息的不同的方法对于提升它。
基础神经网络模型是一个s2s模型transformer(Vaswani et al., 2017)
给定包含n个词的对话，一个基于子注意力机制的编码器被用于提取上下文的隐向量表示，然后一个自回归解码器产生了目标序列。这里，我们使用了BART (Lewis et al., 2020)预训练语言模型基础，并进行fine-tuning
对于每一个对话，有一系列的共指簇，每一个簇包含了一些实体。拿这个多轮对话举例
在这里插入图片描述
有三个不同的共指簇(黄色红色和蓝色）每一个共指簇包含大量的词序列。在对话交互中，参考的代词是重要的对于上下文的语义理解 (Sacks et al., 1978), 因此我们预测合并共指信息是有效的对语声称是对话摘要。在这篇文章中，我们主要是为了用辅助的共指特征提升编码器。

4.1基于GNN的共指融合
由于共指链中的实体相互链接，图形表示可以很容易地表征底层结构并促进相互连接关系的计算建模。在过去的文章中，图卷积神经网络（Kipf and Welling, 2017) 展示了强大的建模图特征的性能。

4.1.1共指图的构建
为了建立一个共指簇的链，我们添加了每个实体和他们的mention的联系。不像过去的工作 (Xu et al., 2020)，一个簇中的实体都指向第一个occurrence，在这里我们链接了相邻对去保留更多的局部信息。更具体的说法是，给定一个簇的实体，我们给每一个E添加了和他前面的连接。
在这里插入图片描述

然后每一个实体链被转换成一个图，输入到了GNN当中。给一个文本中包含n个字符（这里用了sub-word tokenization)，一个共指图G被有n个节点和一个空的邻接矩阵初始化。迭代每个共指集群 C，每个提及（一个词或一个文本跨度）的第一个标记 ti 与其在同一集群中的先行词的第一个标记 tj 连接，具有双向边，
在这里插入图片描述

4.1.2 GNN Encoder
给定一个带有节点（对话中带有共指信息的词/跨度）和边（提及之间的链接）的图 G，我们使用堆叠图建模层stacked graph modeling layers来更新所有节点的隐藏表示 H。这里，我们采用了一个单边的共指网络编码层（CGE）作为一个例子：CGE层的第一个输入是Transformer编码器的输出H，我们denote第k个CGE的层为H，并且第k+1个层的表示如下。
在这里插入图片描述
w和b表示矩阵参数
层归一化 Ni表示第i个节点的相邻节点。
在特征传递后，我们提取了最终的表示通过添加共指信息层HG用contextualized隐状态H，然后用自回归解码器去产生摘要。

4.2共指指导注意力
除了基于GNN的方法引入了一些额外的参数外，我们还探索了一个没有参数的模型。
自注意力机制(Vaswani et al., 2017)，上下文信息能够被注意力加权获得。对于实体在一个上下文簇中，他们能够分享共指信息在语义的层面上。对于参考集群中的实体，它们都在语义级别共享参考信息。因此，我们建议通过上下文表示中的一个额外注意层来融合共指信息。
给定一个具有共指簇的样本，构建一个共指引导的注意层来更新编码表示 H
在这里插入图片描述
由于同一共指集群中的项目彼此相关，因此注意力权重矩阵 Ac 中的值用一个集群中所有引用提及的数量进行归一化，然后表示h就通过下面的公式更新。

4.3 已知共指信息的transformer

虽然预先训练的模型带来了显着的改进，但对于需要高级语义理解的任务（例如共指解析），它们仍然存在不足的先验知识。在本节中，我们通过直接增强语言主干来探索另一种无参数方法。由于我们的神经架构的编码器使用自注意力机制，我们提出了通过注意力权重操作进行特征注入。在我们的情况下，BART(Lewis et al., 2020)的编码端包含了6个多头自注意力层，每个自注意力层有12个头，为了合并共指信息，我们选择了头并且修改他们用权重，表示共指信息。

4.3.1 注意力头检测和选择
为了尽可能多地保留语言主干提供的先验知识，我们首先进行探索任务以战略性地选择注意力头。因为不同的层和头传递不同的语义信息(Hewitt and Manning, 2019)，我们的目标是找到头能够表示最多的共指信息。我们预测了注意力的头通过测量他们权重矩阵的cosine相似性，并用一个预先定义好的共指注意力矩阵。
在这里插入图片描述
在所有测试记得样本中，我们得到了预测在所有的头上。我们观察到，在第五层，第七层的头获得了最高的相似度分数。在第六层，第五层的头获得了最高的相似性分数。

4.3.2 共指信息多头注意力机制
为了明确利用共指信息，我们用共指信息的注意力权重替换了两个主要的注意力头

2.Dialogue Discourse-Aware Graph Model and Data Augmentation for Meeting Summarization

设计了一个meeting graph 能够融合dialogue discourse信息，还加入了pseudo-summarization data

摘要

会议摘要的挑战：多说话人的动态交互，缺乏充足的训练数据。现有的研究方式把会议看作一个线性的语言序列却忽略掉了每句话之间的不同关系。此外，有限的标签数据严重阻碍了神经网络模型的能力。
这篇文章通过引入dialuge-discourse relations 来缓解这些问题。
首先提出了一个DDAMS模型，该模型建模了不同的对话关系来增强模型的表达能力。DDAMS的核心模组是一个关系图编码，该关系图编码用图交互的模式将utterance和discouse relations进行建模。
此外，改论文设计了一个DDADA策略去建立一个伪摘要预料对语现存的输入会议，比原数据集大了20倍，可以被用来预训练DDAMS。实验在AMI和ICSI会议数据集中展示了结果达到了sota，代码如下：https://github.com/xcfcode/DDAMS/

介绍

会议摘要可以让人快速的理解会议的记录内容[Gurevych and Strube, 2004]，
在这里插入图片描述
Goo and Chen [2018]融合了utterance等级的对话动作去提升每一个utterance的表示能力 incorporate utterance-level dialogue acts to enhance the rep- resentation for each utterance.
Li et al. [2019]认为主题是一种结构信息可以丰富对话的表示。
然而，我们生成现在的研究面临两个问题。一个是sequential text modeling。一个回忆是一个动态的信息变化流，会议是一个动态的信息交换流，与传统文档[Sacks et al., 1978].相比，它是非正式的、冗长的、结构化的。但是之前的所有工作都采用顺序建模策略对会议进行编码，阻碍了对话语之间内在丰富的交互关系的探索，这使得会议建模不足。
另一个是缺少足够多的训练数据，据我们所致，语料库的规模对于训练神经网络模型有重大意义，会议摘要的数据尺寸是传统新闻摘要的千分之一。
为了解决上述问题，我们引用了dialogue discourse，一个专用于对话的结构，可以提供两句对话之间的预定义的关系。比如上图中的QA、Contrast和COntinuation，就是三种dialogue discourse relations，可以明确地表达信息流和utterance之间的交互关系。再知道这些关系后，我们就能产生更好的摘要。此外，我们发现一个问题经常会在会议中引发讨论。在图1中，关于design和cost的讨论在battery charger中很显著。因此，我们假设一个问题往往包含核心主题或关键概念，可以用作后续讨论的伪摘要。
在这篇文章中，提出了一个DDAMS对于建模对话的关系。特别的，我们首次转换会议对话用discouse relation成一个会议的图，这里话节点和关系节点交互。然后我们设计了一个graph-to-sequence结构去产生新的摘要。此外，为了解决不充足的数据问题，我们设计了一个DDADA（数据增强）策略，建立了一个伪摘要语料库从现有的输入会议中。详细上，我们是用了QA discourse relation去确认问题为假摘要，然后我们看了接下来的话用associated discouse relation作为假会议。最后，我们建立了一个假摘要语料库，比之前的大20倍。
我们把实验用于AMI [Carletta et al., 2005] and ICSI [Janin et al., 2003]数据集。这个结果表明DDAMS方法的有效性和DDADA的策略。总而言之，（1）我们第一个成功的探索了dialogue discouse去建模会议摘要的语言交互（2）我们设计了一个 dialogue discourse aware数据增强策略去缓解数据稀疏的问题。（3）达到了SOTA