PageRank

Web 数据挖掘定义:
互联网文档的集合 A 中挖掘出一种 潜在模式 B本质是从输 入到输出的一个映射:A→B。

采集的数据:
一般情况包括数据检索、数据选取、数据搜集等 3 个单独的部分构成。

PageRank 算法的基本思想:
页面 B 有一个指向链接指向页面 A ,页面 B 证明肯定了页面 A 的重要性,于是就把页面 B 的PageRank 一部分值的传递给页面 A。
传递的部分值为:PR(B)/L(B)。其中L (B ) 为 B 的出链数, PR(B ) 为网页 B 的 PageRank 值。可以看作:页面 A PageRank 值为若干个形似于于页面 B 的传递值的累加得到的。

PageRank 算法的简单计算:
若有一个只有4个网页的集合,A、 B 、C、 D。现在假设
B、 C、 D 都指向网页A,那么A的PR值为:
在这里插入图片描述
假如页面B的底部其中有一个指向C链接地址,页面D的底部有指向A、 B 、C的链接地址,那么A的PR值为:
在这里插入图片描述
则抽象成PR的数学公式如下:
在这里插入图片描述
上面的公式需要完善一下,在上面网页之间有构成回路的路线,这种回路只会接收传递来的PageRank 值,又因为网页是不短更新的,所以不能将得到的权重传递出去,这样的进行更多次的计算,存在回路的页面由于没有办法传递出去,就会出现问题。对于上面的处在链接坑儿里面的网页,我们可以为页面开拓一条新的页面的路径,那么PR值就能够用这条路径跳转到其他页面去,也就是增加阻尼系数:为每一个页面给定了一个最小的PageRank 值值,用阻尼系数来解决问题,这样页面的PageRank 值为0的情况就不存在了,阻尼系数为0.85.
完善后的公式如下:
在这里插入图片描述
搜索引擎使用 PageRank 算法的重要原因:
目标计算一个页面的PR值:首先计算和此页面有连接的所有的页面的PR值。通过计算每一个页面的PR值,若分配给每一个页面一个随机的非零的PR值,最后通过不停的重复计算,每一个页面的PR值都会收敛于一个稳定的数值。

在《Searching the Web》中将 PageRank 的计算公式表达如下:
L (pj ) 是pj 出链的个数,P1、P2、P3是被分析的页面,而N是所有网页的个数,
在这里插入图片描述

求 PageRank值本质是求特殊矩阵的特征向量。特征向量为:
在这里插入图片描述
R是下面等式的一个解:
在这里插入图片描述
网页当成节点,超链接当作是有向边:
V是网页的节点集合,E是有向边
在这里插入图片描述

网页i有指向网页j的超链接:
在这里插入图片描述

现在一共有N个网页,则这个邻接矩阵:
在这里插入图片描述
概率转移矩阵(将上面的临界矩阵的每行除以该行非0数字之和,那么每行的非零数之和就是出链的总个数,就得到了一个新的矩阵叫做概率转移矩阵):
在这里插入图片描述

存在页面i指向页面j的超链接:
在这里插入图片描述
PageRank 值就转化为:
在这里插入图片描述

保证收敛,邻接矩阵需要满足的条件:
1、邻接矩阵是非周期的 2、邻接矩阵是不可约的

保证收敛的解决方法:
采用阻尼因子解决。
可知:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
给X任意的初始值,皆可满足:
在这里插入图片描述
则:
在这里插入图片描述
依据遍历定理,A为马氏链非周期不可约,不可约遍历链有唯一的
平稳分布:
在这里插入图片描述
满足:
在这里插入图片描述
1是矩阵A的最大特征值 , A的最大特征向量是X。

下面我们用加阻尼系数的方法来进行计算:
在这里插入图片描述

在这里插入图片描述
概率转移矩阵:
在这里插入图片描述
迭代:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
迭代:
在这里插入图片描述

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值