知识图谱入门学习之路(三)----图算法PageRank

本文介绍了PageRank算法,起源于谷歌用于评估网络图中节点重要性的方法。首先,文章阐述了网络图的特征,包括强连通区和有向无环图(DAG)。接着,解释了PageRank如何利用随机游走模型来衡量页面重要性,并通过迭代计算PageRank值。最后,讨论了PageRank在处理死胡同和蛛网陷阱问题上的解决方案。
摘要由CSDN通过智能技术生成

       进入到图算法很多人最先接触的算法就是PageRank,PageRank是谷歌最开始创造并应用的,当初主要是为了用来评估构成网络中的每一个节点的重要性。

      在正式介绍PageRank算法之前,我们先了解下网络图(The web graph)。网络图的特征就是:有向图,存在强连通区。在网络图中,网页作为图中的节点,超链接作为图中的边。

In(V)={w| w can reach V}

Out(V)={w| V can reach w}

对于上图来说

In(A)={A,B,C,E,G}

Out(A)={A,B,C,D,F}

在有向图中有2中类型,每一种图都可以通过这2种类型进行表示:

1. 强连接 :在有向图中,每个节点可以到达图中的任意一个节点。

In(A)=Out(A)={A,B,C,D,E}

2.有向无环图(DAG:directed acydic graph):图中不存在环,也就是如果从A可以到达B,那么B不能到达A。

强连通分量(strongly connected component)是节点S的集合,具备下面2个特征:

1.在S中的每一对节点都可以互相连通彼此;

2.在这种特性下,S是最大的集合,没有别的集合能够把S包含进去。

每一个节点都是一个SCC

在上述图中强连通分量:{A,B,C,G},{D},{E},{F} 

定理:在每一个有向图中,在强连通分量上是一个有向无环图。

对于上图:

In(A)={A,B,C,D,E} 

Out(A)={A,B,D,E,F,G,H}  

SCC(A)=In(A)\bigcap Out(A)=\begin{Bmatrix} A,B,D,E \end{Bmatrix}

上图就是一个巨大的强连通分量,不会存在第二个SCC。

在进行详细介绍PageRank的时候,先来思考下如下问题:

当一个页面有很多超链接的时候,是进来的链接重要还是出去的链接重要?显而易见,是进来的链接重要,那么问题又来了,进来的每一个链接的重要性都是一样的,还是说有所不同,如果不同怎么去衡量。在这里我们采用从更可信的地方出来的链接会更重要。同时网页的重要打分评估也是一个循环递归问题。

PageRank采用流式模型:

重要页面的投票会具有更高的权重。

如果页面i的权重为r_{i},有d_{i}条出边,那么每一个链接有拥有

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值