Google搜索的PageRank算法

最新推荐文章于 2023-06-30 14:47:30 发布

_Summer tree

最新推荐文章于 2023-06-30 14:47:30 发布

阅读量2k

点赞数 2

分类专栏：算法设计文章标签： Google 搜索算法 PageRank 搜索引擎

本文链接：https://blog.csdn.net/NGUever15/article/details/88962553

版权

10 篇文章 0 订阅

订阅专栏

—————————————————————————————
博文发表于夏木青 | JoselynZhao，欢迎访问博文原文。
—————————————————————————————

【pagarank算法之前】根据访问量统计结果来进行排序。
存在的问题：

主要思想：越重要的网页，页面上的链接质量也越高，同时越容易被其他“重要”的网页链接。
基于假设关系。“许多优质的网页中超链接的网页，必定也是优质网页。”（抛开重要性，利用网页间的链接关系），而重要性是是由网页被访问的概率大小来刻画的。
基于这样一个理论：
若网页B上有网页A的链接（称B为A的导入链接），说明B认为A有链接价值，是一个“重要”的网页。
当网页B级别（重要性）较高时，则网页A可以从B分得一定的级别（重要性），并平均分配给A网页上的所有导出链接。

点击无限次链接之后，每个网页的权值不再发生变化。
权值反映重要性，网页据此划分重要性等级。

将网页之间的链接关系表示为对应有向图的链接矩阵。 （只含有0和1）
将链接矩阵进行归一化处理，每一列元素加到一起等于1.
$a_{ij}$ 表示用户从j网页跳转到i网页的概率。

指向网络i的权值之和 $\sum_{j=0}^{j=n} a_{ij}$ 要与网页等级值 $x_i$ 成正比。
假设共同的比例系数为 $\lambda$ .
$\lambda x$
问题转化为求解特征值 $\lambda$ 为1时的特征向量。（等级在分配的过程中不流失，不增加）。

等级泄露问题。
一个独立的网页A如果没有外出的链接就会产生等级泄露，迭代的过程总A的权重没有被分配出去，不断流失，最终导致各个网页的权值为0.

等级沉没问题。
整个网页中的一组紧密链接成环的网页没有外出链接就会产生等级沉没，迭代过程中网页A的权值在第一次被分配出去了之后，就变为0，从此不再参与计算，其余网页的权值陷入循环状态。

解决以上两个问题：引入变量p（阻尼系数）
意义在于：网页之间可以随机的跳转。
公式更新：
$A+\frac{1-p}{N}E$
E是元素全为1的矩阵，N是所有网页数量