对于一个特定的查询,搜索结果的排名取决于两组信息:关于网页的质量信息以及这个查询与每个网页的相关性信息。
PageRank的核心思想:
在互联网上,如果一个网页被很多其他网页所链接,那么说明它收到普遍的承认和信赖,那么它的排名就高。决定搜索质量最有用的信息是用户的点击数量。
PageRank的计算方法:
假定向量
为第一、第二、…第N个网页的网页排名,矩阵
为网页之间的链接数目,其中每个元素表示第i个网页指向第j个网页的链接数,A已知,B未知,假设Bi是第i次迭代的结果,那么
初始假设,所有网页的排名是1/N,即
通过迭代结算,Bi最终会收敛,即Bi无限趋近于B,此时B=B*A,停止迭代。一般来讲,10次迭代就收敛了。
由于网页之间的链接数量相比互联网的规模非常稀疏,因此计算网页的网页排名也需要对零概率或者小概率事件进行平滑处理,网页的排名是一个一维向量,对它的平滑处理只是利用一个小的常数a,此时公式如下:
其中,N是互联网网页的数量,a是一个较小的常数,I是单位矩阵。网页排名主要是依据矩阵相乘,这种计算很容易分解为许多个小任务,在多台计算机上并行处理。
参考文献:吴军.数学之美[M].第二版.人民邮电出版社.2014
PageRank
最新推荐文章于 2024-04-15 15:28:53 发布