文本摘要概述

最新推荐文章于 2022-04-12 22:24:08 发布

qq_43012160

最新推荐文章于 2022-04-12 22:24:08 发布

阅读量590

点赞数

分类专栏： NLP 深度学习大数据文章标签： nlp 文本摘要深度学习数据挖掘

本文链接：https://blog.csdn.net/qq_43012160/article/details/102856661

版权

大数据同时被 3 个专栏收录

20 篇文章 7 订阅

订阅专栏

深度学习

17 篇文章 0 订阅

订阅专栏

NLP

12 篇文章 1 订阅

订阅专栏

文本概要就是从一大段文字里提取关键信息，做概括。主要分为抽取式和生成式。

抽取式extractive

抽取式最常用的算法是TextRank,TextRank 算法是一种用于文本的基于图的排序算法，通过把文本分割成若干组成单元（句子），构建节点连接图，用句子之间的相似度作为边的权重，通过循环迭代计算句子的TextRank值，最后抽取排名高的句子组合成文本摘要。抽取式摘要产生的总结的基本单元（句子/短语）一定是在原文中出现过的，是对原文的挑选堆叠。

参考：http://blog.itpub.net/31562039/viewspace-2286669/
TextRank算法是在PageRank算法的启发下产生的。PageRank算法起初被用来衡量网页的重要性，假设有四个网页，w1、w2、w3、w4，其指向关系如下：
在这里插入图片描述
其中页面w3并未与任何页面链接，我们称之为悬空页面。
我们画个表来描述页面之间的跳转概率关系：

其中悬空页面跳转到其他页面的概率相等。

之后利用矩阵乘法进行迭代，我们知道M代表页面经过一次跳转后页面之间的跳转概率，而M*M则为页面经过两次跳转之后各页面之间的跳转概率…迭代多次后即为页面经过多次跳转后页面间跳转的概率，由于矩阵中各元素初值<1，其必收敛。最后我们取多次迭代后的近似收敛值，用与其他页面的相关性对网页进行排序。取出与其他页面相关性最大的。

在TextRank中，我们将网页换成句子/短语，将跳转概率换为相似度，最后取与其他句子关联度最大的作为关键句，抽取出来作为摘要。当然实际的算法是进行过改进的，且是将矩阵转化为图计算的：
在这里插入图片描述

生成式abstractive

常用的技术是Seq2Seq，应对这种问题有一个经典框架——Encoder-Decoder，编码与解码。
是不是很熟悉？没错，bert就是用的Encoder-Decoder框架。
seq2seq就是你输入一个序列，我给你输出另一个对应的序列。在机器翻译中，输入序列是待翻译的文本，输出序列是翻译后的文本；在问答系统中，输入序列是提出的问题，而输出序列是答案。
Encoder-Decoder框架，也就是两个过程——编码和解码。编码就是将输入序列转化成一个固定长度的向量；解码就是将之前生成的固定向量再转化成输出序列。
可以参考我之前讲transformer的博文：https://blog.csdn.net/qq_43012160/article/details/100782291

这篇博文讲了一下现在生成式的短板，可以看一下：
https://blog.csdn.net/qq_37175369/article/details/80916692

后面应该是会具体对这一块做研究。

qq_43012160

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本摘要概述

文本概要就是从一大段文字里提取关键信息，做概括。主要分为抽取式和生成式。抽取式extractive抽取式最常用的算法是TextRank,TextRank 算法是一种用于文本的基于图的排序算法，通过把文本分割成若干组成单元（句子），构建节点连接图，用句子之间的相似度作为边的权重，通过循环迭代计算句子的TextRank值，最后抽取排名高的句子组合成文本摘要。抽取式摘要产生的总结的基本单元（句子/短...
复制链接

扫一扫