自动会议摘要DDAMS,2021-SOTA,生成式文本摘要

菜鸟ccc

已于 2022-03-26 09:38:30 修改

阅读量1.5k

点赞数

分类专栏：机器学习

于 2022-02-13 17:20:32 首次发布

本文链接：https://blog.csdn.net/qq_32091131/article/details/122911324

版权

会议摘要对话篇章结构数据增强图模型预训练

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

论文：Dialogue Discourse-Aware Graph Model and Data Augmentation for Meeting Summarization

一、研究动机

1. 会议文本建模不充分

2. 大规模训练数据集缺乏

二、文章主要贡献

1、引入对话篇章结构，提取句子之间交互结构信息；

2、通过DDADA构建的伪摘要数据集是原数据集大小的20倍，可以有效地用于预训练DDAMS会议摘要模型；

三、实现

（1）伪数据构建，Dialogue Discourse-Aware Data Augmentation (DDADA)

构建伪造数据集，一种数据增强策略，来构造伪造的领域内数据用于预训练模型。假设在会议中，一个问题往往会引起一段讨论，问题通常包含了讨论的核心要点内容，因此我们将问题视为伪造的摘要，讨论内容视为伪造的会议，从原始的会议数据集中构造了伪造摘要数据集。

同时采用此数据作为预训练属于领域内的数据，能够给模型起到预热作用。

从表格可以看出，我们构造的数据集是原始数据集的20倍大小，一定程度上可以用于预训练我们的模型。

(2) 网络实现

对话篇章结构

SOTA dialogue discourse parser：Zhouxing Shi and Minlie Huang. A deep sequential model for discourse parsing on multi-party dialogues.In AAAI, volume 33, 2019

Nicholas Asher, Julie Hunter, Mathieu Morey, Benamara Farah, and Stergos Afantenos. Discourse structure and dialogue acts in multiparty dialogue: the stac corpus. In LREC,2016

对话篇章结构显式地指示了句子之间的交互关系和会议的信息流。引入该结构可以帮助模型更好地理解会议内容，从而生成更好的会议摘要，针对会议对话结构关系建模DDAMS。

DDAMS实现：

DDAMS

1）会议图构建

使用对话篇章结构解析器（SOTA解析器：A deep sequential model for discourse parsing on multi-party dialogues）获得对话篇章结构关系；

Levi图转换，将边关系转换为节点，并添加正向与反向边（原因不明）(Handbook of Graph Theory Edited ByJonathan L. Gross, Jay Yellen, Ping Zhang)；

2）节点表示

关系节点、全局节点：从一个可学习的编码矩阵中初始化；

句子节点：利用BiLSTM进行初始化，同时融入person onehot，使用前后两向hidden连接concat。

3) 图编码器（RGCN）

编辑

添加图片注释，不超过 140 字（可选）

Michael Schlichtkrull, Thomas N Kipf,Peter Bloem, Rianne Van Den Berg, Ivan Titov, and Max Welling.Modeling relational data with graph convolutional networks

4）解码器

全局节点用来初始化LSTM解码器

解码器采用引入copy机制的解码器，并同时考虑词语级别注意力机制和句子级别的注意力机制

输出分布计算方式：

四、实验

从实验可以看出，DDAMS从网络结构上对于HMNet并没有太大优势，在DDADA数据增强后，比HMNet效果更好，所以在实际使用中，两种方法均可以测试后使用。

菜鸟ccc

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
自动会议摘要DDAMS,2021-SOTA,生成式文本摘要

论文：Dialogue Discourse-Aware Graph Model and Data Augmentation for Meeting Summarization一、研究动机1. 会议文本建模不充分2. 大规模训练数据集缺乏二、文章主要贡献1、引入对话篇章结构，提取句子之间交互结构信息；2、通过DDADA构建的伪摘要数据集是原数据集大小的20倍，可以有效地用于预训练DDAMS会议摘要模型；三、实现（1）伪数据构建，Dialogue Discourse-
复制链接

扫一扫