如何度量一个网页本身的重要性?
- 某网页被指向的次数越多,重要性越高
- 越是重要的网页,所链接的网页的重要性也就越高
![]()
如图所示,链向网页E的链接远远大于链向网页C的链接,但是网页C的重要性却远高于网页E,这是因为网页C被网页B所链接,而网页B具有很高的重要性。
Pagerank算法的相关概念
- PR值:用来评价网页的重要性,PR值越大越重要,其级别从0到10级。一般PR值达到4,就是一个很不错的网站。
- 阻尼系数:阻尼系数d定义为用户不断随机点击链接的概率,所以,它取决于点击的次数,被设定为0-1之间。d的值越高,继续点击链接的概率就越大。因此,用户停止点击并随机冲浪至另一页面的概率在式子中用常数(1-d)表示。无论入站链接如何,随机冲浪至一个页面的概率总是(1-d)。(1-d)本身也就是页面本身所具有的Pagerank 值。
Pagerank核心思想
- PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。这样,PageRank会根据网页B所收到的投票数量来评估该网页的重要性。此外