【自然语言处理】TextRank算法原理●Python实现

最新推荐文章于 2024-06-30 19:34:18 发布

七彩吞天蟒

最新推荐文章于 2024-06-30 19:34:18 发布

阅读量3.6k

点赞数 2

分类专栏：自然语言处理深度学习文章标签：自然语言处理 TextRank PageRank 机器学习算法

本文链接：https://blog.csdn.net/weixin_42057852/article/details/86680993

版权

10 篇文章 1 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

TextRank的产生来自于PageRank，中心思想是一样的，只不过在PageRank里，网页与网页的关系，在TextRank里变成了词与词的关系。

切分文章：把给定的文本使用标点或者空格切分成若干个句子；

$Text = [S_1,S_2, ...,S_n]$
保留关键词：对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即，其中是保留后的候选关键词。

$S_i = [W_1,W_2,...,W_n]$
选择共现窗口大小 $n$ ；
根据共现窗口，重新生成 $T e x t$ 内的所有句子的关键词列表

$W_1,W_2,...,W_n], [W_2,W_3,...,W_{n+1}]$
计算每个词之间的共现度，也就是置信度。
初始化词共现方阵 $M$ 与均值矩阵 $U$

$U_0 = [\frac{1}{n},\frac{1}{n},...\frac{1}{n}]$

$U_n = \alpha M^T U_{n-1} + (1-\alpha)U_0$

其中：M为共现方阵，亦可以理解为转移概率矩阵
根据上面公式，迭代传播各节点的权重，直至收敛。
对节点权重进行倒序排序，从而得到最重要的N个单词，作为候选关键词。在原始文本中进行标记，若形成相邻词组，则组合成多词关键词。例如，文本中有句子“中国人民站起来了”，如果“中国”和“人民”均属于候选关键词，则组合成“中国人民”加入关键词序列。