【自然语言处理】PageRank算法原理●Python实现

最新推荐文章于 2024-04-26 11:14:26 发布

七彩吞天蟒

最新推荐文章于 2024-04-26 11:14:26 发布

阅读量5.9k

点赞数 10

分类专栏：自然语言处理 Python 计算机行业深度学习文章标签： PageRank 算法

本文链接：https://blog.csdn.net/weixin_42057852/article/details/81502727

版权

自然语言处理同时被 3 个专栏收录

10 篇文章 1 订阅

订阅专栏

深度学习

9 篇文章 0 订阅

订阅专栏

计算机行业

6 篇文章 0 订阅

订阅专栏

pagerank算法我相信大家都不陌生，即使你陌生，也没关系，看了这篇文章，你就不陌生了，如果你还陌生，那，，，二营长，二营长！

1. 矩阵构造

PageRank本为解决网页和网页之间的关系，计算__网页重要性__而提出的一种算法.PageRank算法计算每一个网页的PageRank值，然后根据这个值的大小对网页的重要性进行排序。
它的思想是模拟一个悠闲的上网者，上网者首先随机选择一个网页打开，然后在这个网页上呆了几分钟后，跳转到该网页所指向的链接，这样无所事事、漫无目的地在网页上跳来跳去，PageRank就是估计这个悠闲的上网者分布在各个网页上的概率。

假设 A 网页有到B网页的连接,B 网页有到C网页的连接,C网页有到A网页的连接，表示成 A --> B–> C–> A的有向边,如图：
在这里插入图片描述

表示成邻接矩阵如下：

$\left[ \begin{array}{ccc} a_{11} & a_{12} & a_{13}\\ a_{21}& a_{21} & a_{23}\\ a_{31} & a_{32} & a_{33} \end{array} \right]$

邻接矩阵和转移概率矩阵M一样

$\left[ \begin{array}{ccc} 0 & 1 & 0\\ 0& 0 & 1\\ 1 & 0 & 0 \end{array} \right]$

假设A网页还有到C 网页的出链，那么有 1/2 的概率会到C网页，1/2 的概率到B 网页，则邻接矩阵【按列进行归一化后】M变成了转移概率矩阵：
在这里插入图片描述
邻接矩阵

$\left[ \begin{array}{ccc} 0 & 1 & 1\\ 0& 0 & 1\\ 1 & 0 & 0 \end{array} \right]$

转移概率矩阵

$\left[ \begin{array}{ccc} 0 & 0.5 & 0.5\\ 0& 0 & 1\\ 1 & 0 & 0 \end{array} \right]$

M的第一行代表 A 网页出链到 A , B，C网页的概率，第二行代表 B网页出链到 A , B，C 网页的概率，第三行代表 C网页出链到 A , B，C 网页的概率，我们从邻接矩阵可以发现，转移概率矩阵的行的概率和为1【按列归一化的结果】，只要保证这点，则后期PageRank迭代的时候U_n就可以收敛。
注
假如某个节点不存在外链，也就是说邻接矩阵的某一列出链到其他的概率都为0，这样就造成邻接矩阵的某一列都为0，这样就会造成迭代的时候，U的元素都会变成0。

2. 初始pr值矩阵构造

设定网页A，B，C 的初始pr值为 $\frac{1}{n} = \frac{1}{3}$ ，[pr值：PageRank值]
即 $[\frac{1}{3},\frac{1}{3},\frac{1}{3}]$ 的转置矩阵，分别表示 A，B，C 的初始pr值，
进行迭代计算 $U_1 = M^TU = [\frac{1}{3},\frac{1}{3},\frac{1}{3}]$ 还是A，B ，C网页的pr值都是 $\frac{1}{3}$
然后继续 $Un = M^T U_{n-1}$ 直到收敛，可以看到，由于这个例子比较特殊，其实 $[\frac{1}{3},\frac{1}{3},\frac{1}{3}]$ 就是收敛值，因为这个例子A，B，C网页组成了一个循环有向图，所以权重都是 $\frac{1}{3}$ 。

以上是PageRank的基本思想，接下来我们考虑一般化，假设C网页仅仅存在到自己本身的出链, 那么M为：

$\left[ \begin{array}{ccc} 0 & 1 & 0\\ 0& 0 & 1\\ 0 & 0 & 1 \end{array} \right]$

那么可以证明，矩阵U_n收敛于: [0，0，1] 也就是其他网页 A 和B 都会在迭代中pr值变成 0 ，这明显有点不合理，因为如果C网页仅存在自身的出链的时候，没有人会傻到一直点击到 C网页的循环链接。因此对上面的迭代算法进行改进，引入了阻尼系数α，通常α = 0.85 。

具体原理剖析：
在实际应用中，为了有效避免上述两个问题，会使用到一个小技巧，就是假设每个节点都有一个假想的外链指向其它任一节点，这样整个图就变成了一个强连通图了。当然，为了尽量不影响最终计算的PageRank值，节点通过假想外链传递的PageRank值会乘一个权重因子 $β 【 β = 1 - α 】$ ， $β$ 一般取0.2或者更小。

于是一般化公式变为：

$U_n = \alpha M^T U_{n-1} + (1-\alpha)U_0$

或：

$U_n =(1-\beta)M^TU_{n-1} + \beta U_0$

$U_0$ 就是： $[\frac{1}{N},\frac{1}{N},...,\frac{1}{N}]$ 的初始pr值矩阵
将阻尼系数引入后， $U_n$ 收敛值于: $[0.05 ， 0.0925 ， 0.8575]$

3. 代码地址

Github链接地址
https://github.com/geeklili/PageRank_Algorithm

七彩吞天蟒

关注

10
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
【自然语言处理】PageRank算法原理●Python实现

1. 矩阵构造PageRank本为解决网页和网页之间的关系，计算网页重要性而提出的一种算法.PageRank算法计算每一个网页的PageRank值，然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者，上网者首先随机选择一个网页打开，然后在这个网页上呆了几分钟后，跳转到该网页所指向的链接，这样无所事事、漫无目的地在网页上跳来跳去，PageRank就是估计这个悠闲的上网...
复制链接

扫一扫