数据挖掘:Top 10 Algorithms in Data Mining(六)PageRank

Pagerank因google的快熟发展并提供高质量搜索结果而受到广泛关注。Pagerank的主要目标是评价网页的重要程度,并以此作为网页的排名依据。算法主要参考网页被引用的数量,及引用者的权威性。参考下面的简单的网页引用模型:

p1 

首先我们需要一个合适的数据结构来表示这个网络结构。这涉及到图的表示,我们在数据结构课程中学过,常用的方法是邻接矩阵法和链接法。实际中不会单独的只使用某一种方法,这涉及到图的存储优化,矩阵的稀疏表示等其他技术,在此不做说明。此处我们用邻接矩阵表示。而各节点的值可以使用图节点的出度的倒数表示:

 p2

这样矩阵M表示了各图节点到其他节点转移的概率。初始状态下每个节点(网页)自身的值(权重)可以表示为1/N,N为图节点数。A-D初始权重极为v=(1/4,1/4,1/4,1/4).

p3

新的v^1表示各节点的新rank,下一个新rank为v^2=Mv^1. 循环迭代至收敛。

 Pagerank在google的搜索排序算法中只是其中的一部分。还有很多其它算法和因素用于考量页面的排序。同时pagerank也有很多改进的版本。

参考:

http://pr.efactory.de/e-pagerank-implementation.shtml

原文《The PageRank Citation Ranking: Bringing Order to the Web

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值