PageRank算法

白色的生活

已于 2023-01-05 10:28:49 修改

阅读量673

点赞数 1

分类专栏：基础知识文章标签：算法 PageRank

于 2023-01-04 21:56:28 首次发布

本文链接：https://blog.csdn.net/GuoShao_/article/details/128522525

版权

基础知识专栏收录该内容

9 篇文章 0 订阅

订阅专栏

什么是PageRank？

$P a g e R ank$ 算法由 $G oo g l e$ 创始人 $Larry\ Page$ 在斯坦福大学时提出，又称 $PR$ ，佩奇排名。主要针对网页进行排名，计算网站的重要性优化搜索引擎的搜索结果。 $PR$ 值表示其重要性的因子。

算法中心思想

数量假设：
当在网页模型图中，一个网页受到的其他网页指向的入链( $in - l ink s$ )越多，说明该网页越重要。
在这里插入图片描述

质量假设：
当一个质量高的网页指向( $o u t - l ink s$ )一个网页，说明这个被指的网页很重要
在这里插入图片描述

入链与出链：
在这里插入图片描述

PageRank公式

$PR(a)_{i+1}=\sum_{j=0}^n\frac{PR(T_j)_i}{L(T_j)}$

$PR(a)_i$ ：表示第 $i$ 轮迭代，节点 $a$ 的 $PR$ 值
$T_j$ ： $T$ 表示指向节点 $a$ 的节点的集合； $T$ 中共有 $n$ 个节点， $T_j$ 表示集合中的第 $j$ 个节点
$PR(T_j)_i$ ：第 $j$ 个指向 $a$ 的节点的 $PR$ 值， $i$ 表示第 $i$ 轮迭代
$L(T_j)$ ：第 $j$ 个指向 $a$ 的节点的出链数

$P a g e R ank$ 算法的基本想法是在有向图上定义一个随机游走模型，即一阶马尔可夫链，描述随机游走者沿着有向图随机访问各个结点的行为。
浏览者在每个网页依照连接出去的超链接以等概率跳转到下一个网页，并在网上持续不断进行这样的随机跳转，这个过程形成随机游走的一阶马尔可夫链。
即每次 $PR$ 的更新只会考虑一跳距离的网页，当迭代的次数足够多就能通过其他所有的网页信息得出自己的 $PR$ 值。

实例：

在这里插入图片描述

$循环次数$ \ $PR 值$	$PR (A)$	$PR (B)$	$PR (C)$	$PR (D)$
$i = 0$ , $PR$ 值初始化为 $\frac{1}{N}$	$\frac{1}{N}$	$\frac{1}{N}$	$\frac{1}{N}$	$\frac{1}{N}$

$i = 0$ ，第一轮循环：

先求 $PR(A)_{1}$
$PR(A)_{1}=\sum_{j=0}^n\frac{PR(T_j)_0}{L(T_j)}=\frac{PR(C)_0}{L(C)}+\frac{PR(D)_0}{L(D)}=\frac{\frac{1}{4}}{2}+\frac{\frac{1}{4}}{1}=\frac{3}{8}$

因为指向 $A$ 的节点只有 $C$ 和 $D$ ，所以只考虑这两个节点。 $L (C)$ 表示节点 $C$ 的出链数，图中有两个箭头从 $C$ 发出，所以 $L (C) = 2$ ；同理 $L (D) = 1$ ；

其余节点进行相同的 $PR$ 计算：

$PR(B)_{1}=\sum_{j=0}^n\frac{PR(T_j)_0}{L(T_j)}=\frac{PR(A)_0}{L(A)}=\frac{\frac{1}{4}}{2}=\frac{1}{8}$

$PR(C)_{1}=\sum_{j=0}^n\frac{PR(T_j)_0}{L(T_j)}=\frac{PR(A)_0}{L(A)}+\frac{PR(B)_0}{L(B)}=\frac{\frac{1}{4}}{2}+\frac{\frac{1}{4}}{1}=\frac{3}{8}$

$PR(D)_{1}=\sum_{j=0}^n\frac{PR(T_j)_0}{L(T_j)}=\frac{PR(C)_0}{L(C)}=\frac{\frac{1}{4}}{2}=\frac{1}{8}$

更新表格：

$循环次数$ \ $PR 值$	$PR (A)$	$PR (B)$	$PR (C)$	$PR (D)$
$i = 0$ , $PR$ 值初始化为 $\frac{1}{N}$	$\frac{1}{N}$	$\frac{1}{N}$	$\frac{1}{N}$	$\frac{1}{N}$
$i = 1$	$\frac{3}{8}$	$\frac{1}{8}$	$\frac{3}{8}$	$\frac{1}{8}$
$排名$	1	2	1	2

向量化
引入转移概率矩阵/马尔可夫矩阵：
$W=\begin{matrix} \ \ \ \ \ \ A\ \ \ \ \ B\ \ \ \ \ C\ \ \ \ \ D\\ \begin{matrix} A\\B\\C\\D \end{matrix}\begin{bmatrix} 0 &0&1/2&1 \\ 1/2 & 0&0&0\\1/2 & 1&0&0\\0 & 0&1/2&0\end{bmatrix} \end{matrix}$

看第一列，有两个 $1/2$ 分别表示 $A$ 跳转到 $B$ 的概率为 $1/2$ 、 $A$ 跳转到 $C$ 的概率为 $1/2$ 。

即列和为1，第 $i$ 行第 $j$ 列表示从节点 $j$ 跳转到节点 $i$ 的概率。

按列来看 $W$ 矩阵：
每一列的和为 $1$ ，所以按列看表示转移概率
而转移概率值正是出链的倒数
即若 $W_{ij}≠0$ ，则 $W_{ij}=\frac{1}{L(j)}$
按行来看 $W$ 矩阵：
若 $W_{ij}≠0$ ,则 $j$ 为指向 $i$ 的节点

将上一轮的 $PR$ 值定义为 $V$ ：
$V=\begin{bmatrix} PR(A) \\ PR(B) \\ PR(C) \\ PR(D)\end{bmatrix}$

所以新一轮的 $PR$ 值更新公式为：
$V_{i+1}=W*V_{i}$

所以上述的第一轮迭代向量化如下：
$V_1=\begin{matrix} \ \ \ \ \ \ A\ \ \ \ \ B\ \ \ \ \ C\ \ \ \ \ D\\ \begin{matrix} A\\B\\C\\D \end{matrix}\begin{bmatrix} 0 &0&1/2&1 \\ 1/2 & 0&0&0\\1/2 & 1&0&0\\0 & 0&1/2&0\end{bmatrix} \end{matrix}\times \begin{bmatrix} 1/4 \\ 1/4 \\ 1/4 \\ 1/4 \end{bmatrix} = \begin{bmatrix} 3/8 \\ 1/8 \\ 3/8 \\ 1/8 \end{bmatrix}$

与之前计算的一致。

看第一行的计算，是计算 $A$ 节点的 $PR$ 值：
$\begin{bmatrix} 0&0&1/2&1 \end{bmatrix}\begin{bmatrix} 1/4 \\ 1/4 \\ 1/4 \\ 1/4 \end{bmatrix}$
当左边的第 $j$ 个元素为 $0$ 时，表示第 $j$ 个元素不是指向 $A$ 的节点，则对 $PR (A)$ 无贡献。
当左边的第 $j$ 个元素不为 $0$ 时，表示第 $j$ 个元素是指向 $A$ 的节点，其值为 $1/ L (j)$ ，与右边第 $j$ 个元素相乘： $PR (j) / L (j)$ 。
$PR (A) + = PR (j) / L (j)$
与之前定义的公式一致。

第二次迭代：
$V_1=\begin{matrix} \ \ \ \ \ \ A\ \ \ \ \ B\ \ \ \ \ C\ \ \ \ \ D\\ \begin{matrix} A\\B\\C\\D \end{matrix}\begin{bmatrix} 0 &0&1/2&1 \\ 1/2 & 0&0&0\\1/2 & 1&0&0\\0 & 0&1/2&0\end{bmatrix} \end{matrix}\times \begin{bmatrix} 3/8 \\ 1/8 \\ 3/8 \\ 1/8 \end{bmatrix} = \begin{bmatrix} 5/16 \\ 3/16 \\ 5/16 \\ 3/16 \end{bmatrix}$

可以看出，向量化简化了迭代的计算。

DeadEnd问题

DeadEnd问题：当某个节点不存在出链，经过 $n$ 轮迭代，所以的节点的 $PR$ 值都会变成 $0$ 。

实例：

现要计算下图的执行 $P a g e R ank$ 算法：
在这里插入图片描述

$循环次数$ \ $PR 值$	$PR (A)$	$PR (B)$	$PR (C)$
$i = 0$ , $PR$ 值初始化为 $\frac{1}{N}$	$\frac{1}{3}$	$\frac{1}{3}$	$\frac{1}{3}$
$i = 1$
$i = 2$

转移概率矩阵为：
$W=\begin{matrix} \ \ \ \ \ \ \ \ A\ \ B\ \ C\ \ \ \ \\ \begin{matrix} A\\B\\C \end{matrix}\begin{bmatrix} 0 &0&0 \\ 1 & 0&1\\0 &0&0\end{bmatrix} \end{matrix}$

新一轮的 $PR$ 值为：

$PR_1=W*PR_0=\begin{matrix} \ \ \ \ \ \ \ \ A\ \ B\ \ C\ \ \ \ \\ \begin{matrix} A\\B\\C \end{matrix}\begin{bmatrix} 0 &0&0 \\ 1 & 0&1\\0 &0&0\end{bmatrix} \end{matrix}\times \begin{bmatrix}\frac{1}{3} \\ \\ \frac{1}{3} \\ \\\frac{1}{3} \end{bmatrix} = \begin{bmatrix}0 \\ \\ \frac{2}{3} \\ \\ 0 \end{bmatrix}$

$循环次数$ \ $PR 值$	$PR (A)$	$PR (B)$	$PR (C)$
$i = 0$ , $PR$ 值初始化为 $\frac{1}{N}$	$\frac{1}{3}$	$\frac{1}{3}$	$\frac{1}{3}$
$i = 1$	$0$	$\frac{2}{3}$	$0$
$i = 2$

下一轮的 $PR$ 值为：

$PR_1=W*PR_0=\begin{matrix} \ \ \ \ \ \ \ \ A\ \ B\ \ C\ \ \ \ \\ \begin{matrix} A\\B\\C \end{matrix}\begin{bmatrix} 0 &0&0 \\ 1 & 0&1\\0 &0&0\end{bmatrix} \end{matrix}\times \begin{bmatrix}0 \\ \\ \frac{2}{3} \\ \\\ 0 \end{bmatrix} = \begin{bmatrix}0 \\ \\ 0 \\ \\ 0 \end{bmatrix}$

$循环次数$ \ $PR 值$	$PR (A)$	$PR (B)$	$PR (C)$
$i = 0$ , $PR$ 值初始化为 $\frac{1}{N}$	$\frac{1}{3}$	$\frac{1}{3}$	$\frac{1}{3}$
$i = 1$	$0$	$\frac{2}{3}$	$0$
$i = 2$	$0$	$0$	$0$

可以发现，当我们循环多次后，这个模型中所有的PR值都会归为 $0$

解决方法： $t e l e p or t$

我们假设一个没有出链的节点向任何其它节点的转移概率是均等的，然后修正 $W$ 。

修正公式：

$W+a(\frac{e}{n})$

$a$ 为一个 $n\times n$ 的矩阵， $a$ 的第 $i$ 列都对应 $W$ 的第 $i$ 列，当 $W$ 的第 $i$ 列存在不为0的元素时， $a_i$ 为全0的列向量；反之，当 $W$ 的第 $i$ 列元素全为 $0$ 时， $a_i$ 为全1的列向量。
$e$ 是一个全为 $1$ 的列向量
$n$ 为 $W$ 的行数，即顶点个数。

实例：修正 $W$
$W=\begin{matrix} \ \ \ \ \ \ \ \ A\ \ B\ \ C\ \ \ \ \\ \begin{matrix} A\\B\\C \end{matrix}\begin{bmatrix} 0 &0&0 \\ 1 & 0&1\\0 &0&0\end{bmatrix} \end{matrix}$

根据矩阵 $W$ ，可以得出 $a$ ：
$a_0=\begin{bmatrix} 0 \\ 0\\0\end{bmatrix}、a_1=\begin{bmatrix} 1 \\ 1\\1\end{bmatrix}、a_2=\begin{bmatrix} 0 \\ 0\\0\end{bmatrix}$

$a=\begin{bmatrix} 0&1&0 \\ 0&1&0\\0&1&0\end{bmatrix}$

$a(\frac{e}{n})=\begin{bmatrix} 0&1&0 \\ 0&1&0\\0&1&0\end{bmatrix}*\begin{bmatrix} \frac{1}{3} \\ \\ \frac{1}{3}\\ \\ \frac{1}{3}\end{bmatrix}=\begin{bmatrix} 0&\frac{1}{3}&0 \\ 0&\frac{1}{3}&0\\0&\frac{1}{3}&0\end{bmatrix}$

$W_{teleport}=W+a(\frac{e}{n})=\begin{bmatrix} 0 &0&0 \\ 1 & 0&1\\0 &0&0\end{bmatrix} +\begin{bmatrix} 0&\frac{1}{3}&0 \\ 0&\frac{1}{3}&0\\0&\frac{1}{3}&0\end{bmatrix}=\begin{bmatrix} 0 &\frac{1}{3}&0 \\ 1 & \frac{1}{3}&1\\0 &\frac{1}{3}&0\end{bmatrix}$

从而解决了某顶点无出边导致PR多次迭代为0的问题。

因此， $PR$ 迭代公式更新为：

$PR_{i+1}=(W+a(\frac{e}{n}))*PR_i$

Spider Traps问题

节点 $A$ 与其他节点之间无 $o u t - l ink s$ ，只能点击 $A$ 节点继续访问；这就是 $Spider\ Traps$ ，这将会导致网站的权重向一个节点偏移(该节点的 $PR$ 越来越大)。如下图：
在这里插入图片描述

实例：

现要计算下图的执行 $P a g e R ank$ 算法：
在这里插入图片描述

$循环次数$ \ $PR 值$	$PR (A)$	$PR (B)$	$PR (C)$
$i = 0$ , $PR$ 值初始化为 $\frac{1}{N}$	$\frac{1}{3}$	$\frac{1}{3}$	$\frac{1}{3}$
$i = 1$
$i = 2$
$i = 3$
$i = n$

$PR(A)_{1}=\frac{PR(A)_0}{L(A)}+\frac{PR(B)_0}{L(B)}+\frac{PR(C)_0}{L(C)}$

而 $L (A) = 1$ ，所以公式可如下：
$PR(A)_{1}=PR(A)_0+\frac{PR(B)_0}{L(B)}+\frac{PR(C)_0}{L(C)}$

所以 $PR (A)$ 只会越来越大，而其余节点：

$PR(B)_{1}=\frac{PR(C)_0}{L(C)}$
$PR(C)_{1}=\frac{PR(B)_0}{L(B)}$

可以观察到， $PR (B) 、 PR (C)$ 都处于变小的趋势。

经过 $n$ 轮更新后：

$循环次数$ \ $PR 值$	$PR (A)$	$PR (B)$	$PR (C)$
$i = 0$ , $PR$ 值初始化为 $\frac{1}{N}$	$\frac{1}{3}$	$\frac{1}{3}$	$\frac{1}{3}$
$i = 1$	$\frac{2}{3}$	$\frac{1}{6}$	$\frac{1}{6}$
$i = 2$	$\frac{5}{6}$	$\frac{1}{12}$	$\frac{1}{12}$
$i = 3$	$\frac{11}{12}$	$\frac{1}{24}$	$\frac{1}{24}$
$i = n$	$1$	$0$	$0$

会发现权重慢慢的向 $A$ 节点偏移。

解决方法： $Random\ Teleport$

思想：没有出链的节点会以很小的概率跳转到其他节点。

修正概率转移矩阵 $W$ ：

$W=βW+(1-β)\frac{ee^T}{n}$

$n$ 为 $W$ 的行数
$β$ 表示跟随出链( $o u t - l ink s$ )打开网页的概率
$1 - β$ 表示随机跳转到其他非出链指向网页的概率。(如节点 $A$ 会以概率 $1 - β$ 打开 $B$ 或 $C$ )
$ee^T$ 表示 $n\times n$ 的全1矩阵

随机游走算法的基本思想:
从一个或一系列顶点开始遍历一张图。在任意一个顶点，遍历者将以概率 $β$ 游走到这个顶点的邻居顶点，以概率 $(1 - β)$ 随机跳跃到图中的任何一个顶点，称 $β$ 为跳转发生概率，每次游走后得出一个概率分布，该概率分布刻画了图中每一个顶点被访问到的概率。用这个概率分布作为下一次游走的输入并反复迭代这一过程。当满足一定前提条件时，这个概率分布会趋于收敛。收敛后，即可以得到一个平稳的概率分布。

实例：
在这里插入图片描述 $W=\begin{matrix} \ \ \ \ \ \ \ \ A\ \ \ \ \ \ B\ \ \ \ \ \ \ C\ \ \ \ \\ \begin{matrix} A\\B\\C \end{matrix}\begin{bmatrix} 1 &1/2&1/2 \\ 0 & 0&1/2\\0 &1/2&0\end{bmatrix} \end{matrix}$

根据公式：
$β\begin{matrix}\ \ \ A\ \ \ \ \ B\ \ \ \ \ C\ \ \ \ \\ \begin{matrix} \end{matrix}\begin{bmatrix} 1 &1/2&1/2 \\ 0 & 0&1/2\\0 &1/2&0\end{bmatrix} \end{matrix}+(1-β)\begin{matrix} \\ \begin{matrix} \end{matrix}\begin{bmatrix} 1/3 &1/3&1/3 \\ 1/3 & 1/3&1/3\\1/3 &1/3&1/3\end{bmatrix} \end{matrix}$

设置 $β = 0.85$ ：

$0.85\begin{matrix}\ \ \ A\ \ \ \ \ B\ \ \ \ \ C\ \ \ \ \\ \begin{matrix} \end{matrix}\begin{bmatrix} 1 &1/2&1/2 \\ 0 & 0&1/2\\0 &1/2&0\end{bmatrix} \end{matrix}+(1-0.85)\begin{matrix} \\ \begin{matrix} \end{matrix}\begin{bmatrix} 1/3 &1/3&1/3 \\ 1/3 & 1/3&1/3\\1/3 &1/3&1/3\end{bmatrix} \end{matrix}$
$=\begin{matrix}\ \ \ A\ \ \ \ \ B\ \ \ \ \ C\ \ \ \ \\ \begin{matrix} \end{matrix}\begin{bmatrix} 0.85 &0.425&0.425 \\ 0 & 0&0.425\\0 &0.425&0\end{bmatrix} \end{matrix}+\begin{matrix} \\ \begin{matrix} \end{matrix}\begin{bmatrix} 0.05 &0.05&0.05 \\ 0.05 & 0.05&0.05\\0.05&0.05&0.05\end{bmatrix} \end{matrix}=\begin{bmatrix} 0.9 &0.475&0.475 \\ 0.05 & 0.05&0.475\\0.05&0.475&0.05\end{bmatrix}$