自动会议摘要HMNet（2020-SOTA），生成式文本摘要

菜鸟ccc

已于 2022-03-26 09:37:59 修改

阅读量807

点赞数 1

分类专栏：机器学习文章标签：自然语言处理深度学习机器学习

于 2022-02-13 17:23:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32091131/article/details/122911406

版权

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

A Hierarchical Network for Abstractive Meeting Summarization with Cross-Domain Pretraining.EMNLP2020

一、研究动机：

1、建模困难：角色多、交互、文本长、话题跳转

2、数据少

二、文章主要贡献：

1、提出Hierarchical Transformer，能够融合整个对话文本和角色信息，端到端地生成会议摘要；

2、采用新闻摘要数据构造伪会议摘要数据做预训练。

三、实现

（1）伪数据预训练：

HMNet 所有参数都是随机初始化，并完全从头开始训练，因此对训练数据量有着较大的要求，而公开的会议数据集并不多。论文通过将公开的新闻摘要数据构造成对话文本的形式，对 HMNet 进行预训练，再在会议数据集上微调的方式，解决数据匮乏的问题，具体构造方式如下:

1、组合M篇新闻数据，每篇新闻作为一个角色的全部发言；

2、将每篇新闻的数据按句子分开，每个句子作为一个角色的一轮发言；

3、将M篇文章的每轮随机的交织在一起，模拟对话结构；

4、将每篇文章的摘要组合在一起作为最终的对话摘要

显然这样的文本不是真正的对话，但让模型去学习摘要任务，感知角色信息，能给后面基于会议数据的微调起到很好的预热效果。

通过将公开的新闻摘要数据构造成对话文本的形式，对 HMNet 进行预训练，再在会议数据集上微调的方式，解决数据匮乏的问题,新闻数据是领域外数据

伪数据消融实验带来的增长：

从实验结果看出，在没有预训练的情况下，表现会有4个百分点的下降

（2）网络结构：

网络结构

Word-level Encoder，输入是一轮对话，指某一个角色连续说的话，并会在最前面加上一个 [BOS] 开始标志位，其在最后一层的输出作为本轮对话的语义向量，这一点和BERT一样,同时加入POS和entity标签，结合句法和语义信息；

另一个是 Turn-level Encoder，它的输入是每轮对话的语义向量，也就是上一个 Encoder [BOS] 位向量，并会在后面concat上这轮对话说话者的角色向量；

HMNet Decoder 中，每一个 Block 块会有两个 Cross-Attention 层，先对 Word-level 信息做 Attention，再对 Turn-level 信息做 Attention，以此去融合整个对话的信息

实现细节：

POS 和NER采用spacy 分词，维度16，角色维度32

transformer 采用6层8 heads,解码词的d_model=512

512 + 16 + 16 = 544，word-level transformer

512 + 16 + 16 + 32 = 576,turn-level transformer

编码层：

解码层：

解码层

lower triangular mask，避免看到未来的token；

有两个cross-attention layers，先计算词级别attention，然后计算turn-level；

训练：目标是最小化交叉熵，使用teacher-forcing，解码中的输入使用ground-truth；

推理采用beam search 。

四、实验结果

实验结果

示例：

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
自动会议摘要HMNet（2020-SOTA），生成式文本摘要

A Hierarchical Network for Abstractive Meeting Summarization with Cross-Domain Pretraining.EMNLP2020一、研究动机：1、建模困难：角色多、交互、文本长、话题跳转2、数据少二、文章主要贡献：1、提出Hierarchical Transformer，能够融合整个对话文本和角色信息，端到端地生成会议摘要；2、采用新闻摘要数据构造伪会议摘要数据做预训练。三、实现（1）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

菜鸟ccc 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。