PageRank

  1.  
  2. 为了衡量网页的重要性,pagerank是一种基于网络图计算每个页面的排名的方法。
  3. 通常来说高连接的页面比少连接的页面更重要。
  4. pagerank的直观描述:一个页面有高rank如果它的反向链接的rank和是高的。这包括两种情况,一个页面有很多反向链接和一个页面有一些高rank的反向链接
  5.  以上是一个简单的ranking定义
  6. 随机游走模型,“random surfer”简单地随机点击持续的链接,当进入一个网页的小循环时,不可能永远循环下去,所以就会跳到其他页面,额外的因子E可以被视作一种定义这种行为的方式:surfer阶段性地“gets bored”并且根据E的分布跳到一个随机的页面。
  7. S是网页的任何向量,d因子增长了收敛的速度和维持||R1||。一个可选的标准化是用适当的因子乘以R。d的使用可能对E有一个小的影响。
  8. Dangling Links
  9. 这个模型的一个问题是悬空链接。悬空链接只是指向没有传出链接的任何页面的链接。他们影响模型是因为他们的权重无法分配,而且他们有很多。这些悬空链接通常只是我们尚未下载的页面,因为很难对整个web进行抽样(在我们目前下载的2400万个页面中,有5100万个url尚未下载,因此是悬空的)。因为悬空链接不直接影响其他其他页面的ranking,我们只需将它们从系统中删除,直到计算出所有的pagerank。在所有的pagerank

    计算完成后,他们可以添加回来,不会产生大的影响。

  10. Implementation
  11. 我们已经建立了一个完整的爬行和索引系统,目前代表2400万个网页.任何web爬虫都需要保存一个url数据库,以便能够发现web上的所有url.要实现PageRank, web爬虫只需要在爬

    虫时构建链接索引。

    我们将每个URL转换为一个惟一的整数,并使用该整数将每个hyperlink存储在数据库中

    标识页面的id。首先,我们按父ID对链接结构进行排序。然后从链接数据库中删除悬空链

    接,原因已经讨论过(经过几次迭代,删除了大量悬空链接).我们需要对rank进行初步分配。这项任务可以由几种策略中的一种来完成。如果它将迭代直到收敛,通常初值不会影响最后的值,仅仅影响收敛速度。但我们可以通过初始赋值来加快收敛速度。我们相信小心地选择初始值和有限数量的迭代可以产生优良的或改进的性能。

    内存是为每个页面的权重而设置的。在权重趋于一致之后,我们将悬空链接添加回来并重新计算排名。注意,在添加悬空链接之后,我们需要重复删除悬空链接所需的次数。否则,一些悬空链接的权重将为零。收敛准则越宽松,优化程度越高,计算速度越快。或者更有效地估计特征向量的技术可以用于提升表现。与构建全文索引所需的成本相比,计算

    pagerank的成本是不重要的。

  12. Convergence Properties一个图上的随机游走是一个随机的过程,在任何给定的时间步长,我们都在图中一个特定的节点,随机选择一个出边在下一次步长决定访问的节点。一个图被称为扩展器如果节点S的每个子集有一个邻居大于某些因子α乘|S|;这里α叫做拓展因子。一个图有好的扩展因子仅当最大特征值充分地大于第二大的特征值。图上的随机游走被称作快速混合如果它快速地收敛到一个受限的分布在图上的节点集合。将所有这些与pagerank计算关联起来,注意到它本质上是决定在网络图中随机游走的极限分布。事实是pagerank计算在对数时间内结束,这相当于随机游走是快速混合,基本图有一个好的扩展因子。
  13.  
  14.  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

水木流年追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值