数据挖掘算法之 PageRank

一、 什么是PageRank

PageRank 是Sergy Brin 和 Larry page 在1998年4月上第一次提出的,PageRank 利用网页之间的链接形成一个强有力的排名算法。PageRank 算法生成的web网页排序是静态的,这是指每个网页的排序值是通过离线计算得到的,并且该值和查询无关(基于web上的现有的链接而不考虑用户的查询)

二、PageRank 算法思想

把Web抽象成为一个有向图 G=(V,E) ,其中V是图中节点(网页)的集合,E是图的有向边(超链接)的集合,Web 上的总网页数目为n, 网页i的pagerank 值P(i)是:

        

其中 Oj 是网页j中出链的数量。用矩阵P表示PageRank 值的n维向量,用矩阵A表示有向图的邻接矩阵,并按照如下规则为每条有向边赋值:

            

基于这两个矩阵,我们可以得到一个n维的方程组


由线性代数的知识可以知道:Pagerank 的向量P就是对应矩阵A的最大特征值1的主特征向量,我们可以用幂迭代的方法求P。

如果A是一个随机矩阵而且是不可约和非周期的.

随机性: 矩阵的每个元素都是非负的实数而且每行的和为1;

可约行:矩阵强连通时可约,强连通指针对图中的每一个节点对(u,v)存在从u到v的一条路径。

周期性:状态i的是周期的并且具有周期k>1,存在一个最小的正整数k,使得所有的从状态I出发又回到状态i的路径长度都是k的整数倍。如果一个马尔科夫链的所有状态都是非周期的那么这个马尔科夫链是非周期的。

我们可以将整个Web图用马尔科夫链进行建模,每个结点看成是马尔科夫链的一个状态,有向边表示状态的转移,在迭代之前我们需要对悬挂网页(没有任何出边的网页)进行处理,例如如下的一个超链接图,网页5只有入边没有出边&

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值