自动会议摘要HMNet(2020-SOTA),生成式文本摘要

A Hierarchical Network for Abstractive Meeting Summarization with Cross-Domain Pretraining.EMNLP2020

一、研究动机:

1、建模困难:角色多、交互、文本长、话题跳转

2、数据少

二、文章主要贡献:

1、提出Hierarchical Transformer,能够融合整个对话文本和角色信息,端到端地生成会议摘要;

2、采用新闻摘要数据构造伪会议摘要数据做预训练。

三、实现

(1)伪数据预训练:

HMNet 所有参数都是随机初始化,并完全从头开始训练,因此对训练数据量有着较大的要求,而公开的会议数据集并不多。论文通过将公开的新闻摘要数据构造成对话文本的形式,对 HMNet 进行预训练,再在会议数据集上微调的方式,解决数据匮乏的问题,具体构造方式如下:

1、组合M篇新闻数据,每篇新闻作为一个角色的全部发言;

2、将每篇新闻的数据按句子分开,每个句子作为一个角色的一轮发言;

3、将M篇文章的每轮随机的交织在一起,模拟对话结构;

4、将每篇文章的摘要组合在一起作为最终的对话摘要

显然这样的文本不是真正的对话,但让模型去学习摘要任务,感知角色信息,能给后面基于会议数据的微调起到很好的预热效果。

通过将公开的新闻摘要数据构造成对话文本的形式,对 HMNet 进行预训练,再在会议数据集上微调的方式,解决数据匮乏的问题,新闻数据是领域外数据

伪数据消融实验带来的增长:

从实验结果看出,在没有预训练的情况下,表现会有4个百分点的下降

(2)网络结构:

网络结构

Word-level Encoder,输入是一轮对话,指某一个角色连续说的话,并会在最前面加上一个 [BOS] 开始标志位,其在最后一层的输出作为本轮对话的语义向量,这一点和BERT一样,同时加入POS和entity标签,结合句法和语义信息;

另一个是 Turn-level Encoder,它的输入是每轮对话的语义向量,也就是上一个 Encoder [BOS] 位向量,并会在后面concat上这轮对话说话者的角色向量;

HMNet Decoder 中,每一个 Block 块会有两个 Cross-Attention 层,先对 Word-level 信息做 Attention,再对 Turn-level 信息做 Attention,以此去融合整个对话的信息

实现细节:

POS 和NER采用spacy 分词,维度16,角色维度32

transformer 采用6层8 heads,解码词的d_model=512

512 + 16 + 16 = 544,word-level transformer

512 + 16 + 16 + 32 = 576,turn-level transformer

编码层:

解码层:

解码层

lower triangular mask,避免看到未来的token;

有两个cross-attention layers,先计算词级别attention,然后计算turn-level;

训练:目标是最小化交叉熵,使用teacher-forcing,解码中的输入使用ground-truth;

推理采用beam search 。

四、实验结果

实验结果

示例:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

菜鸟ccc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值