TextRank算法基于PageRank,用于为文本生成关键字和摘要。其论文是:
Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 2004.
先从PageRank讲起。
PageRank
PageRank最开始用来计算网页的重要性。整个www可以看作一张有向图图,节点是网页。如果网页A存在到网页B的链接,那么有一条从网页A指向网页B的有向边。
构造完图后,使用下面的公式:
S(Vi)是网页i的中重要性(PR值)。d是阻尼系数,一般设置为0.85。In(Vi)是存在指向网页i的链接的网页集合。Out(Vj)是网页j中的链接存在的链接指向的网页的集合。|Out(Vj)|是集合中元素的个数。
PageRank需要使用上面的公式多次迭代才能得到结果。初始时,可以设置每个网页的重要性为1。上面公式等号左边计算的结果是迭代后网页i的PR值,等号右边用到的PR值全是迭代前的。
举个例子:
上图表示了三张网页之间的链接关系,直觉上网页A最重要。可以得到下面的表:
结束\起始
A
B
C
A
0
1
1
B
0
0
0
C
0
0
0
横栏代表其实的节点

本文介绍了如何利用TextRank算法从文本中提取关键字和摘要。首先讲解了PageRank的基本原理,然后展示了如何应用PageRank计算网页的重要性。接着详细阐述了TextRank在关键词提取中的应用,包括构建句子和单词的图,以及如何通过相似度计算得到关键短语。最后,文中还提到了TextRank4ZH库,并给出了一段Python代码示例,用于提取关键词、关键短语和摘要。
最低0.47元/天 解锁文章

1万+

被折叠的 条评论
为什么被折叠?



