学习NLP的第12天——文章关键词提取：TextRank

最新推荐文章于 2022-11-23 00:02:27 发布

长行

最新推荐文章于 2022-11-23 00:02:27 发布

阅读量534

点赞数

分类专栏：数据分析文章标签： python nlp

本文链接：https://blog.csdn.net/changxing_j/article/details/105754519

版权

数据分析同时被 2 个专栏收录

64 篇文章 5 订阅

订阅专栏

学习NLP的第N天

24 篇文章 31 订阅

订阅专栏

TextRank是PageRank算法在文本处理中的应用，通过将PageRank中的节点从网站替换为单词。

每个单词的“外链”均来自于单词前后固定大小的窗口内的所有单词。

给 你 形容 美好 今后 你 常常 眼睛 会 红

例如，当窗口大小而2时，上面的句子中的“美好”一词，它的窗口内就包含“你”、“形容”、“今后”、“你”这个四个词；以此类推。

在计算TextRank的过程中，窗口内的每个词都相当于给中心词投了一篇，那一票的权重等于该词投出去的所有票平分。

这样的投票方式会产生如下的效果：

一个词语左右搭配越多（信息熵越高），给这个词投票的词就越多，这个词的得分就越高。
一个词出现频率越高，就越有机会被更多的词投票，这个词的得分也会越高。

下面，我们将朱自清的《春》作为例子，使用HanLP提供的extractKeyword静态函数实现TextRank算法，提取其中的前10个关键词：

from pyhanlp import HanLP

if __name__ == '__main__':
    content = "盼望着，盼望着，东风来了，春天的脚步近了。......"

    keyword_list = HanLP.extractKeyword(content, 10)
    print(keyword_list)

运行结果

[春天, 里, 眼, 起来, 风, 雨, 乡下, 小草, 味儿, 刚]

而使用词频统计的方法提取《春》的关键词的结果如下：

[里=4, 春天=4, 起来=3, 眼=3, 风=2, 雨=2, 赶趟儿=2, 花=2, 眨=2, 盼望着=2]

相比之下，TextRank有效判断出了“春天”是比“里”更重要的关键词，但同样也存在一些问题。

学习参考文献：《自然语言处理入门》(何晗)：9.2.3

长行

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录