人群与网络:万维网结构、链接分析与网络搜索

前置:关于有向图强联通分量


万维网结构:领结图

对于一张有向图,求出对应领结图步骤如下:

①已知一个一定在scc中的点,如上图的点1

②求出从1出发能到达的所有点的集合FS = {1,3,4,5,8,9,10,13,14,15,16,18}

③求出反向图中,从1出发能到达的所有点的集合BS = {1,3,4,6,7,8,9,11,12,13,14,15,18}

④得出SCC = FS∩BS = {1,3,4,8,9,13,14,15,18};IN = BS-SCC = {6,7,11,12};OUT = FS-SCC = {5,10,16}

领结图如下:



网页的“中枢”与“权威”性:

被很多网页指向  →  权威性高,认可性强

指向很多网页  →  中枢性强

HITS算法:计算网页的权威值(auth)中枢值(hub)

①对于一个有向图,初始化所有节点auth[] = hub[] = 1

②利用中枢值更新权威值  →  对于每一个节点p,auth[p] = 指向p的所有点hub[]值之和

③利用权威值更新中枢值  →  对于每一个节点p,hub[p] = p指向的所有点auth[]值之和

④重复步骤②③若干次,且步骤②③可以进行归一化:值/总和(归一化随迭代次数趋向一个极限)


PageRank基本算法:节点重要性测度

基本要领:每一个节点将自己的值均分给出向邻居


初始化a = b = c = d = 1,迭代70次之后收敛到a = 0.615,b = 0.923,c = d = 0.231(和不变)

①在一个由“引用”或者“推荐”关系构成的信息网络中,每个节点的重要性可以认为取决于有多少人推荐,以及推荐人的重要性。②这种重要性可以通过“PageRank算法”得到量化。③PageRank算法的基本精神是基于信息网络的结构,让每个节点不断把自己的重要性非给出向邻居,同时用从入向邻居收到的重要性之和来更新自己。④例如要测量社交网络中一个人的影响力和可信度,可以用PageRank算法来计算


PageRank算法缺陷与改进

如下图,迭代无数次后除了F和G为0.5外,其它点都为0


改进方法→①同比缩减:在每次运行基本Pagerank更新规则后,将每一节点的PR值都乘以一个小于1的比例因子s,0<s<1,经验值在0.8-0.9之间;②统一补偿:在每一节点的PR值上统一加上(1-s)/n,这样,既维持了所有PR值和为1的性质,也防止PR值过度集中到某个节点上


随机游走问题:一个人从一篇随机选择的网页开始,然后随机选择其中的一个链接浏览到下一篇网页,并不断的如此进行,称为“随机游走”,考虑任何一个网页X,问经过k步随机游走到X的概率是多少

可以证明:到达X的概率等于运行PageRank基本算法k步得到的值



  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值