文本摘要的调研

最新推荐文章于 2022-10-06 11:25:36 发布

The Crooked Man

最新推荐文章于 2022-10-06 11:25:36 发布

阅读量1k

点赞数 2

分类专栏：论文代码文章标签：自然语言处理神经网络深度学习

本文链接：https://blog.csdn.net/qq_42920313/article/details/119974126

版权

文本摘要方式：
抽取式文本摘要（extractive），按照一定的权重，从原文中寻找跟中心思想最接近的一条或几条句子。
生成式文本摘要（abstractive），在计算机通读原文后，在理解整篇文章意思的基础上，按自己的话生成流畅的翻译。

抽取式文本摘要：Text rank排序算法，大体思想是先去除文章中的一些停用词（为节省存储空间和提高搜索效率，在处理之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words），之后对句子的相似度进行度量，计算每一句相对另一句的相似度得分，迭代传播，直到误差小于0.0001。再对上述得到的关键语句进行排序，便能得到想要的摘要。抽取式摘要主要考虑单词词频，并没有过多的语义信息，无法建立文本段落中的完整语义信息。

生成式文本摘要主要依靠深度神经网络结构实现，2014年GoogleBrain提出的Seq2Seq，开启了NLP中端到端网络的火热研究。

但就目前的形势而言，工业界应用广泛的还是抽取式文本摘要。抽取式文本摘要很多，主题不易偏离，适应性广，速度快。
最传统的抽取式文本摘要方法，是Lead3算法。最常用的是TextRank。

Bert With Summarization

结合了Textrank和Bert，属于抽取式文本摘要。
首先介绍一下模型的结构，原始的BERT的输出是针对Token而不是句子的，而且原始BERT的输入只有两个句子，并不适合文本摘要。

因此首先作者对BERT的结构做了一些更改，让他变得更适合文本摘要这个任务，作者的更改可以在下图体现到：
在这里插入图片描述

作者使用[CLS]和[SEP]区分每一个句子，在原始的BERT中[CLS]表示一整个句子或者句子对的内容，在这里作者修改了模型结构，使用[CLS]来区分每一个句子
作者对每一个句子增加了segment embedding，segment embedding由句子的奇偶顺序决定，例如对于句子[sen1, sen2, sen3, sen4, sen5]他们的segment embedding就是[EA, EB, EA, EB, EA]。

Summarizationlayer

得到了句子的向量之后，接下来要做的工作就是判断这句话是否要组成文本的摘要。这就是一个二分类的工作了，作者尝试了三种summarization layer，分别是

1、传统的全连接层
2、Inter-sentence Transformer
结构如下图所示，初始位置的句子向量为position embedding，之后每一个位置的输入都是由上一个位置的输入经过多头Attention层，layer norm和全连接层之后的输出结果。最后的输出依然是一个二分类。
3、RNN层
这里是在BERT之后接了LSTM层，LSTM是非常适合NLP任务的一种结构，当然最后输出也是一个二分类的结果。

实验结果

作者在CNN Daily和NYT两个公开数据集上进行了实验，实验效果如下图所示，其中

Lead是抽取文本的前三句话作为摘要
REFRESH是优化了ROUGE矩阵的抽取式文本摘要系统
NEUSUM是抽取式文本摘要的state-of-art的效果
PGN是Pointer Generator，生成式文本摘要
DCA是当前生成式文本摘要的state-of-art的效果

最低0.47元/天解锁文章

The Crooked Man

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
文本摘要的调研

文本摘要方式：抽取式文本摘要（extractive），按照一定的权重，从原文中寻找跟中心思想最接近的一条或几条句子。生成式文本摘要（abstractive），在计算机通读原文后，在理解整篇文章意思的基础上，按自己的话生成流畅的翻译。抽取式文本摘要：Text rank排序算法，大体思想是先去除文章中的一些停用词（为节省存储空间和提高搜索效率，在处理之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words），之后对句子的相似度进行度量，计算每一句相对另一句的相似度得分，迭代传播，直到误差小
复制链接

扫一扫