【每日一读】EMNLP2020:基于异质图注意力网络进行抽取式摘要

在这里插入图片描述
这是一篇关于抽取式摘要任务的工作,抽取式摘要的任务目标是: 在给定的篇章中,选出其中关键的个句子作为这篇文章的摘要。一般来说,一个句子是否被选择作为摘要句子,取决于两方面因素:
在这里插入图片描述

  • 句子本身包含的内容是否足够重要;
  • 该句子与其他句子之间的信息的、重复冗余程度

例如上图所示的,sent1, sent3, sent4 的 salience score 都足够高,但最终只有 sent3, sent4 被选择作为了摘要句子,因为sent1, sent3 之间有很大一部分信息是互相重复冗余的

另外,作者还提到以往的抽取式摘要工作有如下两个缺陷:

  • 依赖前文句子的预测标签,来判断当前句子是否应该被选择,这存在误差级联曝光偏差 的问题;
  • 以往工作总是在所有的文章中选择Top K 个句子作为摘要句子,然而,在现实中,将不同篇章的摘要句子数量规定为同一个常量是不合理的

基于以上问题,作者提出 HAHSum (Hierarchical Attentive Heterogeneous Graph for Text Summarization) 模型,它具有如下特点:

  • 学习冗余感知的句子表示(redundancy-aware sentence representation),来平衡每个句子的重要程度与信息冗余程度;
  • 同时对篇章中的所有句子进行预测,判断他们是否应该被选择为摘要句子;并可以在阈值范围内灵活地选择摘要句子的数量

HAHSum 模型将每篇文章建模为一个异质图,图中包含三种类型的节点(word, entity, sentence)对不同语义粒度的信息建模,和四种类型的边来表示不同的结构信息;基于这些边和点, HAHSum包含三种子图,可以分别用三种邻接矩阵表示:

  • A w o r d A_{word} Aword: 词/实体级别子图;
  • A w o r d − s e n t A_{word-sent} Awordsent: 词/实体与句子相互交互的子图;
  • A s e n t A_{sent} Asent: 句子级别的子图

具体地,HAHSum 模型由如下几个模块构成:
在这里插入图片描述

  • ALBERT Encoder: 用ALBERT进行基础的编码,得到每个词和句子的表示;

  • Abstract Layer: 学习每个词的语义表示,具体由三层GAT构成

    • 第一个GAT Layer: 基于 A w o r d A_{word} Aword得到word-word间的交互的词节点表示
      在这里插入图片描述
    • 后两层GAT: 基于 A w o r d − s e n t A_{word-sent} Awordsent, 得到交互句子表示后的词表示,以及句子节点的初始表示 S a b s S_{abs} Sabs
      在这里插入图片描述
  • Redundancy Layer: 目的在于建模句子间的信息冗余关系,具体包括如下步骤:

    • 首先对句子级的子图进行基本处理
      在这里插入图片描述

    • 计算冗余信息g:
      在这里插入图片描述

    • 基于g 对句子节点表示进行更新:
      在这里插入图片描述

    • 设计门结构p, 控制层级之间的信息流动,避免Oversmooth以及促进ALBERT编码信息向最终分类层的流动:
      在这里插入图片描述

    • 得到下一层的句子节点表示:
      在这里插入图片描述

  • Output Layer: 同时对所有句子的标签(是否保留为摘要句子)进行预测:
    在这里插入图片描述

作者分别在CNN/DailyMailNYTNewsroom(Ext) 三个数据集上进行了实验,都取得了sota效果:
在这里插入图片描述
通过消融实验分析了模型各个模块的作用:
在这里插入图片描述
对字词节点进行了可视化分析以及case study的分析:
在这里插入图片描述


了解更多深度学习相关知识与信息,请关注公众号深度学习的知识小屋

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值