融入常识知识的生成式对话摘要

最新推荐文章于 2022-12-29 16:31:46 发布

zenRRan

最新推荐文章于 2022-12-29 16:31:46 发布

阅读量1.8k

点赞数 4

文章标签：机器学习人工智能深度学习大数据自然语言处理

点击下面卡片，关注我呀，每天给你送来AI技术干货！

论文名称：Incorporating Commonsense Knowledge into Abstractive Dialogue Summarization via Heterogeneous Graph Networks

论文作者：冯夏冲，冯骁骋，秦兵，刘挺

原创作者：冯夏冲

论文链接：https://arxiv.org/abs/2010.10044

出处：哈工大SCIR

1. 背景

对话摘要（Dialogue Summarization）任务在近两年得到了工业界和学术界的广泛关注。华为、阿里巴巴、滴滴、微软、三星、A*STAR等公司针对会议摘要、客服对话摘要、医患对话摘要等任务进行研究。斯坦福大学、中弗洛里达大学、佐治亚理工、北邮针对开放域闲聊对话摘要、会议摘要等任务进行研究。SIGDial2021针对多人会议摘要开设了专门的SummDial Session。CCL2021发布评测任务“智能医疗对话诊疗评测”，包含了根据医患对话生成医疗报告。总体而言，随着社会的发展和通讯技术的进步，对话数据日益增多，并且迸发出不同的形式：会议、邮件、闲聊、讨论、辩论等等。不同形式的对话数据又有着自身的特点。对话摘要技术可以从复杂的对话数据中提取关键信息，从而大大降低理解对话数据的难度，更好地辅助下游任务。更多对话摘要论文可以参考：Dialogue Summarization 论文列表。

（https://github.com/xcfcode/Summarization-Papers#dialogue）

2. 简介

对话是一种由多人参与的数据体裁，参与者接收对话上文信息，结合自身常识知识进行理解，从而参与到对话当中。目前已经有一些工作证明了显式的融入常识知识可以帮助对话回复生成任务[1]和对话上下文建模任务[2]。

我们首次针对对话摘要任务探索常识知识的利用。图1展示了SAMSum对话摘要数据集[3]中的一个样例，“鲍勃因为车坏了向汤姆寻求帮助”。根据对话语句中的“接我”和“车坏了”可以引入“让...搭车”这一常识知识。一方面，这一常识知识表达了鲍勃和汤姆对话的深层含义，另一方面，这一常识知识也连接了对话中非邻接的语句，使得整个对话的信息流更加清晰。最终，借助该常识知识，可以得到更加凝练、准确的对话摘要。

图1 SAMSum 数据集中对话摘要样例。绿色代表说话人，蓝色代表句子，粉色代表常识知识

我们首先通过大规模常识知识库ConceptNet[4] 为对话引入常识知识，然后将对话中的说话人、句子以及引入的常识知识视为三种不同类型的数据，构建为异构对话图（Heterogeneous Dialogue Graph，HDG），最后利用异构对话图网络模型（Dialogue Heterogeneous Graph Network，D-HGN）进行建模三类数据，生成最终对话摘要。我们在SAMSum数据集上进行实验，结果显示，引入常识知识和异构性建模均可以帮助模型生成更好的对话摘要。除此以外，在Argumentative Dialogue Summary数据集上的结果显示，引入常识知识可以使得我们的模型具有更好的泛化能力。

3.异构对话图构建

异构对话图（Heterogeneous Dialogue Graph，HDG）构建包括了三个步骤，（1）句子-知识图构建；（2）说话人-句子图构建；（3）异构对话图构建。整体构建流程如图2所示。我们将异构对话图定义为，其中节点，边。不同类型的节点和边有各自的类型映射函数，其中节点类型映射函数为，边类型映射函数为。

图2 异构对话图构建流程

句子-知识图构建 我们使用大规模常识知识库ConceptNet为对话引入常识知识。ConceptNet中的知识以元组形式存在：，其中代表头实体，代表尾实体，代表关系，代表置信度（或权重），ConceptNet共包含34种关系类型。我们首先将对话句子中的每一个词语视为一个查询词，去ConceptNet中寻找以该查询词为核心的常识知识元组。然后我们过滤掉关系为Antonym、Etymologically、DerivedFrom、NotHasProperty、DistinctFrom、NotCapableOf、EtymologicallyRelatedTo、NotDesires的元组。在此基础之上，我们进一步过滤掉置信度低于1的元组。经过以上两步过滤之后，我们可以得到针对一个对话的相关常识知识元组集合，如图2b所示。基于这些知识元组，我们根据以下规则构建句子-知识图。（1）如果两个句子连接到相同的尾实体，则通过边“know-by”连接该尾实体与对应句子。（2）如果两个句子可以连接到多个不同尾实体，那么选择置信度最高的一个进行连接。（3）如果两个句子可以连接到多个相同尾实体，则合并为一个。句子-知识图构建如图2c所示。

说话人-句子图构建 对于一个对话，我们将说话人和句子视为不同类型的节点。然后将说话人与对应的句子通过“speak-by”边进行连接，如图2d所示。

异构对话图构建 我们将句子-知识图和说话人-句子图以句子为中介进行整合得到异构对话图。除此以外，我们还额外添加了两类型的反向边“rev-know-by”和“rev-speak-by”来促进整个图的信息传播，最终我们的异构对话图如2e所示。节点类型集合包括了说话人，句子和知识。边类型集合包括了speak-by，know-by，rev-speak-by和rev-know-by。

4. 异构对话图网络

异构对话图网络（Dialogue Heterogeneous Graph Network，D-HGN）一共包含四个模块。（1）异构对话图构建；（2）节点编码器，旨在给每一个图节点提供初始表示；（3）图编码器，旨在利用异构图神经网络更新节点表示；（4）解码器，旨在解码最终摘要。

图3 异构对话图网络（D-HGN）模型

节点编码器 节点编码器旨在为每一个节点提供初始表示。其中，说话人节点和知识节点都可能包含多个词语，因此，每一个节点包含个词语。我们使用Bi-LSTM作为节点编码器来获得节点表示。对于每一个节点的词语序列，Bi-LSTM会分别生成前向表示和后向表示。最后，我们通过拼接前向、后向表示得到节点初始表示和词语初始表示。整体流程如图3b所示。

图编码器 我们使用Heterogeneous Graph Transformer[5]作为我们的图编码器基础模型。其核心包含了三个模块：（1）异构互注意力机制，旨在计算两种不同类型节点之间的注意力得分；（2）异构消息传递，旨在传递类型特定的信息；（3）目标特定信息集成，旨在根据目标节点类型收集信息。如图3c所示。

图4 异构图神经网络表示学习过程

异构互注意力机制。对于图中给定的一条边，我们首先将第 - 层的源节点和目标节点表示和根据其类型分别映射为：

为了计算与之间的注意力分数，我们引入与边类型有关的矩阵，最终经过归一化之后的注意力分数为，整个流程如图4a所示。

异构消息传递。对于每一个源节点表示，我们根据其节点类型将其映射为。为了得到最终消息向量，我们引入与边类型有关的的矩阵，整个流程如图4b所示。

目标特定信息集成。对于目标信息集成，我们区分以下两种情况：（1）目标节点类型不为句子；（2）目标节点类型为句子。对于第一种情况，我们首先使用注意力分数加权求和消息向量。对于第二种情况，我们使用注意力分数加权求和知识节点表示，然后额外添加说话人表示。

最终，根据目标节点类型，我们将得到的表示映射回目标节点类型并使用残差连接得到更新后的节点表示：

节点位置向量。对话中的句子具有时序先后关系，当建模为异构对话图时，节点无法感知其位置信息，因此我们引入节点位置向量。对于说话人节点和知识节点，我们固定其位置为0。对于句子节点，我们按照对话中的顺序为其添加节点位置向量。，代表了可学习的位置向量参数矩阵。在得到融入节点位置信息的节点表示向量之后，我们将其与对应的词语表示拼接，并进行进一步映射得到更新之后的词语表示。

解码器 我们采用与[6]结构一致的解码器生成摘要，该解码器具有拷贝功能，即可以从词表中生成，也可以从原文中拷贝词语。我们使用图中所有节点表示的平均来初始化解码器的隐层状态，如图3d所示。

5. 实验

5.1 数据集

我们在SAMSum[3]数据集上进行主实验，并在Argumentative Dialogue Summary[7]数据上进行辅助实验。并利用ROUGE指标进行评价。数据集统计如表1所示。

表1 数据集统计。# 代表数量，Coverage 表示拥有知识节点对话数据的占比，Average Know 表示平均每个对话有多少知识节点

5.2 主实验

表2显示了我们在SAMSum数据集上的的实验结果。可以看出我们的方法与基线模型相比取得了一定的提升。与GCN、GAT、RGCN等同构图神经网络相比，我们的方法也显示出了一定的优越性。

表2 SAMSum 测试集结果。“Know.”, “Heter.”, “Utter.” 和 “RL” 表示是否引入知识、使用异构性建模、使用额外的句子级别抽取标签以及使用使用强化学习

5.3 泛化性实验

我们将在SAMSum上训练好的模型直接在Argumentative Dialogue Summary数据集上进行测试。结果如表3所示。与基线模型对比，D-GAT通过引入常识知识可以取得更好的效果。我们的模型D-HGN通过异构性建模可以取得进一步提升。

表3 Argumentative Dialogue Summary 数据集实验结果

5.4 表示可视化

对于SAMSum测试集，我们抽取经过图网络更新之后的、最后一层的节点表示，然后使用t-SNE进行可视化，结果如图5所示。可以发现，我们的方法（D-HGN）针对三种类型的数据，可以学到更加容易区分的表示，基线模型（D-GAT）即使采用同构图神经网络，也倾向于区分不同类型节点表示，说明显示的异构性建模可以帮助学习更好的表示。

图5 D-HGN（我们的方法）和 D-GAT（基线模型）表示可视化

5.5 生成样例

图6展示了不同模型生成的对话摘要。我们的模型引入了“生日派对”和“一些人”两个常识知识。通过关注“生日派对”，我们的模型生成了更加全面、质量更高、与标准摘要更加接近的对话摘要。

图6 不同摘要模型生成样例

6 总结

我们首次探索了常识知识在对话摘要任务中的应用，并提出使用异构图神经网络来建模说话人、句子、知识三种不同类型的数据。实验证明我们的方法通过融入常识知识和异构性建模可以取得超过基线模型的效果，同时也证明了我们的方法具有更好的泛化性。

参考文献

[1]Hao Zhou, Tom Young, Minlie Huang, Haizhou Zhao, Jingfang Xu, and Xiaoyan Zhu. Commonsense knowledge aware conversation generation with graph attention. IJCAI 2018.

[2]Tianyi Wang, Yating Zhang, Xiaozhong Liu, Changlong Sun, and Qiong Zhang. Masking orchestration: Multi-task pretraining for multi-role dialogue representation learning. AAAI 2020.

[3]Bogdan Gliwa, Iwona Mochol, Maciej Biesek, and Aleksander Wawer. Samsum corpus: A humanannotated dialogue dataset for abstractive summarization. EMNLP-IJCNLP 2019.

[4]Robert Speer and Catherine Havasi. Representing general relational knowledge in conceptnet 5. LREC 2012.

[5]Ziniu Hu, Yuxiao Dong, Kuansan Wang, and Yizhou Sun. Heterogeneous graph transformer. World Wide Web Conf 2020.

[6]Abigail See, Peter J. Liu, and Christopher D. Manning. Get to the point: Summarization with pointer-generator networks. ACL 2017.

[7]Amita Misra, Pranav Anand, Jean E. Fox Tree, and Marilyn A. Walker. Using summarization to discover argument facets in online idealogical dialog. HLT-NAACL 2015.

本期责任编辑：丁　效

本期编辑：彭　湃

说个正事哈

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方“深度学习自然语言处理”，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。