【NLP】TextRank&NMF文本摘要总结

最新推荐文章于 2024-04-07 16:17:17 发布

置顶半九拾

最新推荐文章于 2024-04-07 16:17:17 发布

阅读量968

点赞数

分类专栏： NLP 机器学习

本文链接：https://blog.csdn.net/b285795298/article/details/101438601

版权

机器学习同时被 2 个专栏收录

16 篇文章 17 订阅

订阅专栏

NLP

8 篇文章 1 订阅

订阅专栏

TextRank&NMF文本摘要总结

我们在用TextRank作文本摘要时，提出一种新颖的方法来解决长文本的摘要提取问题。

TextRank的思想很简单，其基本思想来源于谷歌的 PageRank算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。

TextRank 一般模型可以表示为一个有向有权图 G =(V, E), 由点集合 V和边集合 E 组成, E 是V ×V的子集。图中任两点 Vi , Vj 之间边的权重为 wji , 对于一个给定的点 Vi, In(Vi) 为指向该点的点集合 , Out(Vi) 为点 Vi 指向的点集合。点 Vi 的得分定义如下:

　其中, d 为阻尼系数, 取值范围为 0 到 1, 代表从图中某一特定点指向其他任意点的概率, 一般取值为 0.85。使用TextRank 算法计算图中各点的得分时, 需要给图中的点指定任意的初值, 并递归计算直到收敛, 即图中任意一点的误差率小于给定的极限值时就可以达到收敛, 一般该极限值取 0.0001。

TextRank用句子或词之间的相关关系矩阵替代了pagerank中网页间的指向关系。迭代的过程依旧使用的是pagerank 的算法。我们可以通过https://www.jianshu.com/p/7485cac02e95 了解PageRank。

1. 基于TextRank的关键词提取

　　关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。TextRank算法是利用局部词汇之间关系（共现窗口）对后续关键词进行排序，直接从文本本身抽取。其主要步骤如下：

　　（1）把给定的文本T按照完整句子进行分割，即

　　（2）对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即，其中是保留后的候选关键词。

　　（3）构建候选关键词图G = (V,E)，其中V为节点集，由（2）生成的候选关键词组成，然后采用共现关系（co-occurrence）构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。

　　（4）根据上面公式，迭代传播各节点的权重，直至收敛。

　　（5）对节点权重进行倒序排序，从而得到最重要的T个单词，作为候选关键词。

（6）由（5）得到最重要的T个单词，在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。例如，文本中有句子“Matlab code for plotting ambiguity function”，如果“Matlab”和“code”均属于候选关键词，则组合成“Matlab code”加入关键词序列。

TextRank算法进行文章的摘要提取算法流程

1. 第一步是把所有文章整合成文本数据

2. 接下来把文本分割成单个句子

3. 然后，我们将为每个句子找到向量表示（词向量）。

4. 计算句子向量间的相似性并存放在矩阵中

5. 然后将相似矩阵转换为以句子为节点、相似性得分为边的图结构，用于句子TextRank计算。

在进行下一步之前，我们先将相似性矩阵sim_mat转换为图结构。这个图的节点为句子，边用句子之间的相似性分数表示。在这个图上，我们将应用PageRank算法来得到句子排名。

6. 最后，一定数量的排名最高的句子构成最后的摘要。