jieba库中基于 TextRank 算法的关键词抽取——源代码分析（七）

最新推荐文章于 2023-10-14 11:01:44 发布

叮叮咚咚乐呵呵

最新推荐文章于 2023-10-14 11:01:44 发布

阅读量333

点赞数

文章标签：算法自然语言处理 python

本文链接：https://blog.csdn.net/qq_47229425/article/details/121460887

版权

本文深入分析了jieba库中基于TextRank算法的关键词抽取，特别是无向有权图的实现。通过遍历共现词典，将词与出现次数作为权值添加到无向有权图，并使用sorted函数进行降序排序，以确定关键词的重要性。如果指定了topK，将输出前topK个关键词，否则输出所有关键词。

摘要由CSDN通过智能技术生成

2021SC@SDUSC
2021SC@SDUSC
在上篇博文中，我们分析了类UndirectWeightedGraph中定义的最重要的用以计算权值的rank方法，至此，无向有权图的实现部分主要代码已经分析完毕，那么我们接下来继续分析textrank方法。

首先回顾一下textrank方法之前实现词的共现部分的代码，里面就涉及到了无向有权图和权值，即其实对第二步只有简短的一小部分，大部分都涉及到了第三部分——即无向有权图。

for i, wp in enumerate(words):  #遍历cut之后的分词结果(i,wp)，对其进行处理
            if self.pairfilter(wp):  #判断词wp是否符合代提取关键词的条件
                #span是滑动窗口，在这里取的j是i词的下文，这里实现词的共现，即词之间的连接关系
                for j in xrange(i + 1, i + self.span): 
                    if j

最低0.47元/天解锁文章

叮叮咚咚乐呵呵

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
jieba库中基于 TextRank 算法的关键词抽取——源代码分析（七）

2021SC@SDUSC2021SC@SDUSC在上篇博文中，我们分析了类UndirectWeightedGraph中定义的最重要的用以计算权值的rank方法，至此，无向有权图的实现部分主要代码已经分析完毕，那么我们接下来继续分析textrank方法。首先回顾一下textrank方法之前实现词的共现部分的代码，里面就涉及到了无向有权图和权值，即其实对第二步只有简短的一小部分，大部分都涉及到了第三部分——即无向有权图。for i, wp in enumerate(words): #遍历cut之后的分
复制链接

扫一扫