版权声明:本文为博主原创文章,未经博主允许不得转载。
1、数据格式
links 的数据结构是 (pageId, linkList)元素组成; ranks 的数据结构是 (pageId , rank)组成 。
2、算法逻辑
(1) 每个页面rank值初始化 位 1
(2) 针对page m页 面 .,向其每个邻页面发送一个 贡献值c,贡献值 c = rank(p) /numberneighbors(p)
(3) 将每个页面的排序值 计算值设置为 0.15 + 0.85 * 贡献值 c
针对 (2)和(3)步骤进行无限迭代,最终每个页面的排序值 rank是收敛的,此时认为该值是 页面的排序值 rank
3、PageRank算法原理
PageRank的计算充分利用了两个假设:数量假设和质量假设。步骤如下: 1)在初始阶段:网页通过链接关系构建起Web图,每个页面设置相同的PageRank值,通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的PageRank值会不断得到更新。 2)在一轮中更新页面PageRank得分的计算方法:在一轮更新页面PageRank得分的计算中,每个页面将其当前的PageRank值平均分配到本页面包含的出链上,这样每个链接即获得了相应的权值。而每个页面将所有指向本页面的入链所传入的权值求和,即可得到新的PageRank得分。当每个页面都获得了更新后的PageR