2021SC@SDUSC
2021SC@SDUSC
Text Rank实现过程第三步——计算图中节点的PageRank,注意是无向带权图
上篇博客主要是分析TextRank算法的第二步,那么在分析过程中,出现了一句代码用于构建无向有权图
g = UndirectWeightedGraph()
这里主要是用了类UndirectWeightedGraph和其中的方法,那在分析TextRank方法最后一段用于输出关键词的代码前,我们需要先对类UndirectWeightedGraph进行分析。
首先看类的初始化
class UndirectWeightedGraph:
d = 0.85
def __init__(self):
self.graph = defaultdict(list) #定义分词后的词典
self.graph = defaultdict(list)实质上就是一个词典,词典中储存的是一个个三元列表,包含着一条边的起始点,结束点和权重,即图存储为列表词典。
然后是用于添加边的函数addEdge
def addEdge(self, start, end, weight):
# use a tuple (start, end, weight) instead of a Edge object #使用元组(起点,终点,权重)代替边对象
self.graph[start].append((start, end, weight)) #将(起点,终点,权重)边添加到无向图里面
self.graph[end].append((end, start, weight)) #将(终点,起点,权重)边添加到无向图里面
addEdge方法用于给无向有权图添加边。
在这个方法中,就解释使用了刚才我们分析初始化graph方法时所说的使用元组(起点,终点,权重)代替边对象,化图像为列表数据。
由于我们第三步需要的是无向有权图,所以在这里添加边是,不仅把(起点,终点)添加进去,还将终点和起点位置调换后把边(终点,起点)也添加了进去,当然,二者权重一样。
之后是类UndirectWeightedGraph中最重要的方法rank,用于计算权重。
def rank(self):
ws = defaultdict(float)
outSum = defaultdict(float)
wsdef = 1.0 / (len(self.graph) or 1.0)
for n, out in self.graph.items():
ws[n] = wsdef
outSum[n] = sum((e[2] for e in out), 0.0)
# this line for build stable iteration
sorted_keys = sorted(self.graph.keys())
for x in xrange(10): # 10 iters
for n in sorted_keys:
s = 0
for e in self.graph[n]:
s += e[2] / outSum[e[1]] * ws[e[1]]
ws[n] = (1 - self.d) + self.d * s
(min_rank, max_rank) = (sys.float_info[0], sys.float_info[3])
for w in itervalues(ws):
if w < min_rank:
min_rank = w
if w > max_rank:
max_rank = w
for n, w in ws.items():
# to unify the weights, don't *100.
ws[n] = (w - min_rank / 10.0) / (max_rank - min_rank / 10.0)
return ws
接下来我们进行逐行分析。
def rank(self):
ws = defaultdict(float) #定义节点权值的词典
outSum = defaultdict(float) #定义节点出度之和词典
wsdef = 1.0 / (len(self.graph) or 1.0) #初始化各个结点的权值
首先初始化各个节点的权重值,并定义相应的词典和节点出度之和的词典。
for n, out in self.graph.items():
ws[n] = wsdef #对各结点的权值赋值为初始值
outSum[n] = sum((e[2] for e in out), 0.0) #统计各结点的出度次数之和
之后是循环结构,对各结点的权值赋值为初始值,然后统计各个结点的出度次数之和,其中,e是结点指向其他节点的边,而e[2]代表结点出度的边的值,因为无向图可以视作一个双向图,既有指出的也有链入的。
关于接下来的循环部分代码由于比较复杂,需要结合公式分析,所以下篇代码继续讲述。