jieba库中基于 TextRank 算法的关键词抽取——源代码分析（五）

最新推荐文章于 2022-11-27 23:35:03 发布

叮叮咚咚乐呵呵

最新推荐文章于 2022-11-27 23:35:03 发布

阅读量229

点赞数

文章标签：算法 python 开发语言

本文链接：https://blog.csdn.net/qq_47229425/article/details/121186977

版权

本文详细介绍了TextRank算法中无向带权图的构建及PageRank计算过程。通过类`UndirectWeightedGraph`的初始化、添加边和计算权重的方法，阐述了如何在Python中实现这一关键步骤。`rank`方法中的迭代过程用于更新节点权重，最终得到关键词的权重分布。

摘要由CSDN通过智能技术生成

2021SC@SDUSC
2021SC@SDUSC
Text Rank实现过程第三步——计算图中节点的PageRank，注意是无向带权图
上篇博客主要是分析TextRank算法的第二步，那么在分析过程中，出现了一句代码用于构建无向有权图

g = UndirectWeightedGraph()

这里主要是用了类UndirectWeightedGraph和其中的方法，那在分析TextRank方法最后一段用于输出关键词的代码前，我们需要先对类UndirectWeightedGraph进行分析。

首先看类的初始化

class UndirectWeightedGraph:
    d = 0.85

    def __init__(self):
        self.graph = defaultdict(list) #定义分词后的词典

self.graph = defaultdict(list)实质上就是一个词典，词典中储存的是一个个三元列表，包含着一条边的起始点，结束点和权重，即图存储为列表词典。

然后是用于添加边的函数addEdge

def addEdge(self, start, end, weight):
        # use a tuple (start, end, weight) instead of a Edge object  #使用元组（起点，终点，权重）代替边对象
        self.graph[start].append((start, end, weight))  #将（起点，终点，权重）边添加到无向图里面
        self.graph[end].append((end, start, weight))	#将（终点，起点，权重）边添加到无向图里面

addEdge方法用于给无向有权图添加边。
在这个方法中，就解释使用了刚才我们分析初始化graph方法时所说的使用元组（起点，终点，权重）代替边对象，化图像为列表数据。
由于我们第三步需要的是无向有权图，所以在这里添加边是，不仅把（起点，终点）添加进去，还将终点和起点位置调换后把边（终点，起点）也添加了进去，当然，二者权重一样。

之后是类UndirectWeightedGraph中最重要的方法rank，用于计算权重。

def rank(self):
        ws = defaultdict(float)
        outSum = defaultdict(float)

        wsdef = 1.0 / (len(self.graph) or 1.0)
        for n, out in self.graph.items():
            ws[n] = wsdef
            outSum[n] = sum((e[2] for e in out), 0.0)

        # this line for build stable iteration
        sorted_keys = sorted(self.graph.keys())
        for x in xrange(10):  # 10 iters
            for n in sorted_keys:
                s = 0
                for e in self.graph[n]:
                    s += e[2] / outSum[e[1]] * ws[e[1]]
                ws[n] = (1 - self.d) + self.d * s

        (min_rank, max_rank) = (sys.float_info[0], sys.float_info[3])

        for w in itervalues(ws):
            if w < min_rank:
                min_rank = w
            if w > max_rank:
                max_rank = w

        for n, w in ws.items():
            # to unify the weights, don't *100.
            ws[n] = (w - min_rank / 10.0) / (max_rank - min_rank / 10.0)

        return ws

接下来我们进行逐行分析。

 def rank(self):
        ws = defaultdict(float)		#定义节点权值的词典
        outSum = defaultdict(float)		#定义节点出度之和词典

        wsdef = 1.0 / (len(self.graph) or 1.0)  #初始化各个结点的权值

首先初始化各个节点的权重值，并定义相应的词典和节点出度之和的词典。

for n, out in self.graph.items():
            ws[n] = wsdef  #对各结点的权值赋值为初始值
            outSum[n] = sum((e[2] for e in out), 0.0)  #统计各结点的出度次数之和

之后是循环结构，对各结点的权值赋值为初始值，然后统计各个结点的出度次数之和，其中，e是结点指向其他节点的边，而e[2]代表结点出度的边的值，因为无向图可以视作一个双向图，既有指出的也有链入的。

关于接下来的循环部分代码由于比较复杂，需要结合公式分析，所以下篇代码继续讲述。

叮叮咚咚乐呵呵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba库中基于 TextRank 算法的关键词抽取——源代码分析（五）

2021SC@SDUSC2021SC@SDUSCText Rank实现过程第三步——计算图中节点的PageRank，注意是无向带权图上篇博客主要是分析TextRank算法的第二步，那么在分析过程中，出现了一句代码用于构建无向有权图g = UndirectWeightedGraph()这里主要是用了类UndirectWeightedGraph和其中的方法，那在分析TextRank方法最后一段用于输出关键词的代码前，我们需要先对类UndirectWeightedGraph进行分析。首先看类的初始化
复制链接

扫一扫