文本摘要的调研

文本摘要方式:
抽取式文本摘要(extractive),按照一定的权重,从原文中寻找跟中心思想最接近的一条或几条句子。
生成式文本摘要(abstractive),在计算机通读原文后,在理解整篇文章意思的基础上,按自己的话生成流畅的翻译。

抽取式文本摘要:Text rank排序算法,大体思想是先去除文章中的一些停用词(为节省存储空间和提高搜索效率,在处理之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words),之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001。再对上述得到的关键语句进行排序,便能得到想要的摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,无法建立文本段落中的完整语义信息。

生成式文本摘要主要依靠深度神经网络结构实现,2014年GoogleBrain提出的Seq2Seq,开启了NLP中端到端网络的火热研究。

但就目前的形势而言,工业界应用广泛的还是抽取式文本摘要。抽取式文本摘要很多,主题不易偏离,适应性广,速度快。
最传统的抽取式文本摘要方法,是Lead3算法。最常用的是TextRank。

Bert With Summarization

结合了Textrank和Bert,属于抽取式文本摘要。
首先介绍一下模型的结构,原始的BERT的输出是针对Token而不是句子的,而且原始BERT的输入只有两个句子,并不适合文本摘要。

因此首先作者对BERT的结构做了一些更改,让他变得更适合文本摘要这个任务,作者的更改可以在下图体现到:
在这里插入图片描述

作者使用[CLS]和[SEP]区分每一个句子,在原始的BERT中[CLS]表示一整个句子或者句子对的内容,在这里作者修改了模型结构,使用[CLS]来区分每一个句子
作者对每一个句子增加了segment embedding,segment embedding由句子的奇偶顺序决定,例如对于句子[sen1, sen2, sen3, sen4, sen5]他们的segment embedding就是[EA, EB, EA, EB, EA]。

Summarizationlayer

得到了句子的向量之后,接下来要做的工作就是判断这句话是否要组成文本的摘要。这就是一个二分类的工作了,作者尝试了三种summarization layer,分别是

1、传统的全连接层
2、Inter-sentence Transformer
结构如下图所示,初始位置的句子向量为position embedding,之后每一个位置的输入都是由上一个位置的输入经过多头Attention层,layer norm和全连接层之后的输出结果。最后的输出依然是一个二分类。
3、RNN层
这里是在BERT之后接了LSTM层,LSTM是非常适合NLP任务的一种结构,当然最后输出也是一个二分类的结果。

实验结果

作者在CNN Daily和NYT两个公开数据集上进行了实验,实验效果如下图所示,其中

Lead是抽取文本的前三句话作为摘要
REFRESH是优化了ROUGE矩阵的抽取式文本摘要系统
NEUSUM是抽取式文本摘要的state-of-art的效果
PGN是Pointer Generator,生成式文本摘要
DCA是当前生成式文本摘要的state-of-art的效果

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值