通过计算页面链接的数量和质量来确定网站重要性的粗略估计。算法创立之初的目的是应用在Google的搜索引擎中,对网站进行排名。
**核心思想**
PageRank是基于从许多优质的网页链接过来的网页,必定还是优质网页的思想建立的。其包括:链入链接数(即受欢迎的指标)、链入链接是否来自推荐度高的页面、链入链接源页面的链接数。
=>
即得到页面A的PR值的计算公式
推导出 ===> ,
其中L为某一个页面的链出数总和。
==> 建立一个简化模型:对于任意网页Pi,它的PageRank值可表示为如下:
Bi:所有链接到网页i的网页集合
随机浏览模型
避免了一个独立网页没有链出转态和整个网页图中的一组紧密链接成环的网页没有链出状态的情况,由此产生了随机浏览模型的建立过程:
网页之间的链接关系可以用邻接矩阵表示,其公式如下:
N : 网页中网页的总数;
d:阻尼因子,通常设为0.85,d即按照超链接进行浏览的概率;
??????这是经验值??????????????请教网友
1-d:随机跳转一个新页面的概率;
:网页的PR值;
:网页的链出网页数目;
由于PR=A*PR满足马尔可夫链的性质,其中A是一个转移概率矩阵,那么通过迭代计算可以得到所有页面的PageRank值。经过重复计算,这些页面的PR值会趋于正常和稳定。
状态转移矩阵:
g(ij) : 页面的i到页面j有链接为1,否则为0
CJ : 页面j的链出总数
根据马尔可夫的遍历性,
最终求出PR值,再归一化,便得到所有页面的PR值。
例如:通过计算得到A的状态转移矩阵如下:
设各个页面的PR值为 ,根据公式得:,
结果计算得到
优点:
(1)与查询无关的静态算法,所有网页的PageRank值都是离线计算好的;
(2)有效的减少了在线查询时的计算量,减少了查询响应时间;
缺点:
过分的相信链接关系
(1)一些权威网站往往都是互不链接的,因为存在竞争关系;
(2)人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题相关性降低;
(3)旧的页面等级比新的页面等级高。