论文:Get To The Point Summarization with Pointer-Generator Networks解读

论文:Get To The Point: Summarization with Pointer-Generator Networks解读

Abstract类型的文本摘要存在的问题
  • 容易产生不准确的事实;
  • 倾向于重复相同的内容。

在这里插入图片描述

注:如上面所示,作为基线的seq2seq+Attention这样的纯粹的生成式模型存在1.无法生成OOV词汇;2.歪曲事实两个问题。Pointer Generator 存在重复内容的问题。在引入Coverage mechanism之后的Pointer-Gen+Coverage模型能够解决上面的三个问题。

论文的创新点
  • (1)使用一个混合的指针-生成器网络(hybrid pointer-generator network),它可以通过指针从源文本复制单词,这有助于准确复制信息,同时保留通过生成器生成新单词的能力。
  • (2)使用覆盖率(coverage)来追踪摘要的内容,这有助于缓解重复的现象。
Introduction

​ 文本摘要使用抽取和生成两种方法:抽取式和生成式。抽取式是从文章中选择关键的词句拼接而成,这种方式能够保证生成句子语法和准确性的下限。然而高质量的摘要往往需要分段、泛化或者结合知识,这种类型的摘要只能使用生成式方法。seq2seq模型有三个问题:不准确的再现事实,无法处理词汇表外的(OOV)的单词,重复自己。论文提出的模型可以在多句子的文本摘要中解决这三个问题。混合指针-生成器网络便于通过指向从源文本复制单词,这提高了OOV单词的准确性和处理能力,同时保留了生成新单词的能力。可以看作是提取和抽象方法之间的平衡。在消除重复方面,论文提出了覆盖向量(coverage vector)来跟踪和控制对源文本的覆盖。

seq2seq attention model

1.标准的seq2seq模型使用BiLSTM对源文本进行编码,然后使用Encoder hidden state和Decoder hidden state计算新的时间步的Attention分布,进而得到新的上下文向量context vector,使用softmax层对上下文变量解码得到新时间步的词汇分布。

  • 根据当前解码器的隐藏状态 s t s_t st和输入不同时间步的隐藏状态 h i h_i hi分别计算得到attention分布 a t ​ a^t​ at

e i t = v T t a n h ( W h h i + W s s t + b a t t ) e_i^t = v^T tanh(W_hh_i+W_ss_t+b_{att}) eit=vTtanh(Whhi+Wsst+batt)

a t = s o f t m a x ( e t ) a^t = softmax(e^t) at=softmax(et)

  • 计算attention分布对所有的 h i h_i hi加权和

h t ∗ = ∑ i a i t h i h_t^* = \sum _i a_i^t h_i ht=iait</

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值