机器学习算法-PageRank(排序)

PageRank是Google的创始人Larry Page提出的一种衡量网页重要性的算法,它基于网页之间的链接关系。重要网页被链接的次数越多,其PageRank值越高。PageRank通过迭代计算收敛,用于搜索引擎的网页排序,简化了海量网页的处理。尽管存在Rank Leak和Rank Sink等问题,PageRank仍然是搜索引擎技术的重要组成部分,并在多个领域有应用。
摘要由CSDN通过智能技术生成

Larry Page于1998年提出了PageRank,并在斯坦福大学攻读计算机科学博士学位期间,遇到了Sergey Brin,两人于1998年合伙创立Google,并将PageRank应用在Google搜索引擎的检索结果排序上,该技术也是Google早期最关键的核心技术,已被成功申请专利。Larry Page是Google的创始首席执行官,2001年4月转任现职产品总裁。 2004 年入选美国国家工程学院,2005年,佩奇当选美国艺术与科学院院士。2013年,获选2013美国40岁以下最有影响力CEO,并以230亿美元资产荣登福布斯2013全球富豪榜第二十位。2016年10月,《福布斯》发布"美国400富豪榜",Larry Page排名第九。简直就是神一般的存在。他目前仍与Eric Schmidt和Sergey Brin一起共同负责 Google的日常运作,算是当今世界将知识创新转化为财富最成功的人之一。

一、基本思想

在Google中搜索“ABC",搜索引擎工作的简要过程如下:针对查询词“ABC”进行分词“A"、“B”、“C”,根据建立的倒排索引,将同时包含"A"、“B"和"C"的页面返回(通常情况下,搜索引擎在分词后会自动过滤掉一些"停顿词”,如"是"、“的”、",“等,本处假定“A”、“B”、“C"均是有效关键词。)。通常情况下,同时包含了关键词“A”、“B”、"C"的页面数以千计,假设反馈页面有1000张,那么可能的排列组合就有1000!之多,如果相关的页面被排在了后面,不相关的页面被排在了前面,用户需要遍历浏览几百次才能获取需要的信息,费时费力,体验非常糟糕。针对此如何将查询结果合理的排序,将重要的文档优先反馈给用户,使用户快速获取有用信息便变得非常关键。

但如何度量网页本身的重要性呢?单纯地靠人力去评判是万万不可能的,因此需要基于互联网的特性,再利用机器学习的方法快速地实现页面重要性的评估:互联网上的每一篇HTML文档除了包含文本、图片、视频等信息外,还包含了大量的链接关系,利用这些链接关系,能够发现某些重要的网页。直观地看,某网页1链向网页2,则可以认为网页1觉得网页2有链接价值,是比较重要的网页。某网页被指向的次数越多,则它的重要性越高;越是重要的网页,所链接的网页的重要性也越高。

![这里写图片描述](https://img-blog.csdnimg.cn/img_convert/8e89272a4ff86a9e3643d6f52bf21630.png)

比如,新华网体育在其首页中对新浪体育做了链接,人民网体育同样在其首页中对新浪体育做了链接。可见,新浪体育被链接的次数较多;同时,人民网体育和新华网体育也都是比较“重要”的网页,因此新浪体育也应该是比较“重要”的网页。PageRank便是一种在搜索引擎中根据网页之间相互的链接关系计算网页重要性排名的技术。(Google在反馈查询结果时,一般是综合考虑各个网页的PageRank值和TF-IDF值。)

二、模型原理

PageRank根据网页之间相互的链接关系来计算网页的排名,是Google用来标识网页的等级或重要性的一种方法。其级别从1到10级,PageRank值越高说明该网页越受欢迎(越重要)。通常,PageRank 0~2表示目前未有太多外部连结连到这个网站,一个PR值为1的网站表明这个网站不太具有流行度;而PageRank值值为7~10则表明这个网站非常受欢迎(或者说极其重要),Google把自己的网站的PageRank值定到9,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。国内百度的PageRank值也是9。一般PageRank值达到4,就算是一个不错的网站了, 已经证明链接到此网站的外部链接“质”、“量”俱佳。在本文中,以01之间的数来表示网页的PageRank值(Google其是在此结果的基础上做了一次映射,方便用户一目了然网页的重要性,如00.001为0级、0.0010.01为1级、0.010.02为2级……)

通俗地讲PageRank值表明了在互联网上随机地单击链接将会到达特定网页的可能性。通常,能够从更多地方到达的网页更为重要,因此具有更高的PageRank值。如果要查看此站点PageRank值,请安装Google工具条并启用PageRank特性,或者在Firefox安装SearchStatus插件。目前一些网站也可以直接查询指定网页的PageRank值,如本人在站长之家查询个人博客主页的结果如下(看来是沾了CSDN的光):

![这里写图片描述](https://img-blog.csdnimg.cn/img_convert/ce3d5289448b45f31d40c40f83b07df3.png)

PageRank 是基于**「从许多优质的网页链接过来的网页,必定还是优质网页」**的回归关系,来判定所有网页的重要性。假设一个由只有5个页面组成的集合: P 1 P_1 P1 P 2 P_2 P2 P 3 P_3 P3 P 4 P_4 P4 P 5 P_5 P5。如果 P 1 P_1 P1 P 2 P_2 P2链向 P 3 P_3 P3,那么 P 3 P_3 P3的PR(PageRank)值将是 P 1 P_1 P1 P 2 P_2 P2的和。
p 3 = p 1 + p 2 . p_3=p_1+p_2. p3=p1+p2.
继续假设 P 1 P_1 P1也有链接到 P 4 P_4 P4,一个页面不能投票2次。所以 P 1 P_1 P1给每个页面半票。以同样的逻辑, P 2 P_2 P2投出的票只有三分之一算到了 P 1 P_1 P1的PageRank上。
p 3 = p 1 2 + p 2 3 . p_3=\frac{p_1}{2}+\frac{p_2}{3}. p3=2p1+3p2.
换句话说,根据链出总数平分一个页面的PR值,
p 3 = p 1 L 1 + p 2 L 2 . p_3=\frac{p_1}{L_1}+\frac{p_2}{L_2}. p3=L1p1+L2p2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值