jieba库中基于 TextRank 算法的关键词抽取——源代码分析(七)

本文深入分析了jieba库中基于TextRank算法的关键词抽取,特别是无向有权图的实现。通过遍历共现词典,将词与出现次数作为权值添加到无向有权图,并使用sorted函数进行降序排序,以确定关键词的重要性。如果指定了topK,将输出前topK个关键词,否则输出所有关键词。
摘要由CSDN通过智能技术生成

2021SC@SDUSC
2021SC@SDUSC
在上篇博文中,我们分析了类UndirectWeightedGraph中定义的最重要的用以计算权值的rank方法,至此,无向有权图的实现部分主要代码已经分析完毕,那么我们接下来继续分析textrank方法。

首先回顾一下textrank方法之前实现词的共现部分的代码,里面就涉及到了无向有权图和权值,即其实对第二步只有简短的一小部分,大部分都涉及到了第三部分——即无向有权图。

for i, wp in enumerate(words):  #遍历cut之后的分词结果(i,wp),对其进行处理
            if self.pairfilter(wp):  #判断词wp是否符合代提取关键词的条件
                #span是滑动窗口,在这里取的j是i词的下文,这里实现词的共现,即词之间的连接关系
                for j in xrange(i + 1, i + self.span): 
                    if j 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值