jieba库中基于 TextRank 算法的关键词抽取——源代码分析(六)

2021SC@SDUSC
2021SC@SDUSC
rank函数代码讲解——更新权值部分
上篇博客中开始介绍类UndirectWeightedGraph,首先分析了init初始化函数和过滤函数以及rank函数的一部分,接下来分析rank函数剩余部分。
这是类中rank函数的代码,上次分析到,第一个for循环中,初始化各个节点的权重值,并定义相应的词典和节点出度之和的词典。

def rank(self):
        ws = defaultdict(float)
        outSum = defaultdict(float)

        wsdef = 1.0 / (len(self.graph) or 1.0)
        for n, out in self.graph.items():
            ws[n] = wsdef
            outSum[n] = sum((e[2] for e in out), 0.0)

        # this line for build stable iteration
        sorted_keys = sorted(self.graph.keys())
        for x in xrange(10):  # 10 iters
            for n in sorted_keys:
                s = 0
                for e in self.graph[n]:
                    s += e[2] / outSum[e[1]] * ws[e[1]]
                ws[n] = (1 - self.d) + self.d * s

        (min_rank, max_rank) = (sys.float_info[0], sys.float_info[3])

        for w in itervalues(ws):
            if w < min_rank:
                min_rank = w
            if w > max_rank:
                max_rank = w

        for n, w in ws.items():
            # to unify the weights, don't *100.
            ws[n] = (w - min_rank / 10.0) / (max_rank - min_rank / 10.0)

        return ws

那么接下来应分析第二个for循环中的代码,主要是用于更新计算结点的权值。

 # this line for build stable iteration 这句话是为了稳定的循环迭代
        sorted_keys = sorted(self.graph.keys()) #将传生成的图权值排序
        for x in xrange(10):  # 10 iters 循环10次
            for n in sorted_keys:	#遍历每个结点
                s = 0
                for e in self.graph[n]:		#遍历结点的入度结点
                #计算贡献率公式:贡献率 = 入度结点与结点n的共现次数 / 入度结点的所有出度的次数
                    s += e[2] / outSum[e[1]] * ws[e[1]]		#利用公式,将这些入度结点贡献后的权值相加
                ws[n] = (1 - self.d) + self.d * s		#更新结点n的权值

这一部分的代码其实就是与TextRank算法公式直接结合起来,s是指公式中后半段累加部分,e[2]应是指累加部分的分子wij,即结点vj到结点vi的边的权重,而outSum[e[1]] * ws[e[1]]则对应公式中的分母部分,就是将节点vj指定其他节点的边的权重相加作为分母,结点vj到结点vi的边的权重在vj出度中的占比。
在这里插入图片描述

接下来的代码是权值大小的获取。

 (min_rank, max_rank) = (sys.float_info[0], sys.float_info[3]) #选取最大最小权值比较的基准
        for w in itervalues(ws):	#获取权值的最大值和最小值
            if w < min_rank:
                min_rank = w
            if w > max_rank:
                max_rank = w

        for n, w in ws.items():		# 对权值进行归一化处理
            # to unify the weights, don't *100.
            ws[n] = (w - min_rank / 10.0) / (max_rank - min_rank / 10.0)

        return ws	#返回权值

到此,TextRank获取权值的rank函数已经分析完毕,rank函数最后会返回权值ws,用于关键词提取。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值