PageRank

  通过计算页面链接的数量和质量来确定网站重要性的粗略估计。算法创立之初的目的是应用在Google的搜索引擎中,对网站进行排名。
  **核心思想**  
  PageRank是基于从许多优质的网页链接过来的网页,必定还是优质网页的思想建立的。其包括:链入链接数(即受欢迎的指标)、链入链接是否来自推荐度高的页面、链入链接源页面的链接数。 

这里写图片描述 =>
即得到页面A的PR值的计算公式 这里写图片描述
推导出 ===> 这里写图片描述
其中L为某一个页面的链出数总和。
==> 建立一个简化模型:对于任意网页Pi,它的PageRank值可表示为如下: 这里写图片描述
Bi:所有链接到网页i的网页集合

随机浏览模型
避免了一个独立网页没有链出转态和整个网页图中的一组紧密链接成环的网页没有链出状态的情况,由此产生了随机浏览模型的建立过程:
网页之间的链接关系可以用邻接矩阵表示,其公式如下:
这里写图片描述
N : 网页中网页的总数;
d:阻尼因子,通常设为0.85,d即按照超链接进行浏览的概率;
??????这是经验值??????????????请教网友
1-d:随机跳转一个新页面的概率;
这里写图片描述:网页的PR值;
这里写图片描述:网页的链出网页数目;
由于PR=A*PR满足马尔可夫链的性质,其中A是一个转移概率矩阵,那么通过迭代计算可以得到所有页面的PageRank值。经过重复计算,这些页面的PR值会趋于正常和稳定。
状态转移矩阵: 这里写图片描述
g(ij) : 页面的i到页面j有链接为1,否则为0
CJ : 页面j的链出总数
根据马尔可夫的遍历性, 这里写图片描述
最终求出PR值,再归一化,便得到所有页面的PR值。
例如:通过计算得到A的状态转移矩阵如下:
这里写图片描述
设各个页面的PR值为 这里写图片描述,根据公式得:这里写图片描述
结果计算得到
这里写图片描述
这里写图片描述
优点:
(1)与查询无关的静态算法,所有网页的PageRank值都是离线计算好的;
(2)有效的减少了在线查询时的计算量,减少了查询响应时间;
缺点:
过分的相信链接关系
(1)一些权威网站往往都是互不链接的,因为存在竞争关系;
(2)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题相关性降低;
(3)旧的页面等级比新的页面等级高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值