搜索引擎---PageRank算法

一、引言

谷歌从1998年至今逐渐成为一家最有创造力、影响力的公司,其中离不开其创始人提出的PageRank算法。

在给出PageRank算法之前,我们先来回顾一下搜索引擎的工作。

PageRank算法的魅力在于提出了“链接关系”用来处理网页之间的关系,而不是早 期搜索引擎的仅利用关键字匹配和简单的布尔运算来给出搜索结果。

PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。----来自维基百科http://zh.wikipedia.org/wiki/PageRank

至于外链的关系何以这样重要也是好理解的,就像就好比一篇论文被诺贝尔奖得主所引用, 显然要比被普通研究者所引用更说明其价值。

先给大家一个直观的列子,网页B,C,D都有外链到网页A,同时网页B也有外链到C, 且网页D有外链到B和C.


这样我们粗糙的得到A的PageRank的值,PR(A) = PR(B)/2 + PR(C) + PR(D)/3.

二、数学推导

假设一个虚拟用户在互联网上的漫游过程。 假定: 虚拟用户一旦访问了一个网页后, 下一步将有相同的几率访问被该网页所链接的任何一个其它网页。 换句话说, 如果网页 Wi 有 Ni 个对外链接, 则虚拟用户在访问了 Wi 之后, 下一步点击这些链接中任何一个的几率均为 1/Ni。 初看起来, 这一假设并不合理, 因为任何用户都有偏好, 怎么可能以相同的几率访问一个网页的所有链接呢? 但虚拟用户实际上是对互联网上全体用户的一种平均意义上的代表, 这条假设就不象初看起来那么不合理了。 那么网页的排序由什么来决定呢

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值