PageRank可以较为直观的理解为是对网页重要性排序的一种算法。
Googel 能在全球互联网搜索引擎中处于较高地位,该算法功不可没。
导 读
早期的搜索引擎通过计算用户查询关键词与网页内容的相关程度来返回搜索结果,即关键词匹配算法。
但该种搜索引擎会极容易遭受Term Spam攻击,导致用户体验满意度大打折扣。
例如,在页面上添加一个像“电影”这样的术语,并做数千次,搜索引擎就会认为这是一个非常重要的电影页面。当用户搜索“电影”时,搜索引擎将首先列出该页面。
Web页面数量非常巨大,所以一个检索的结果条目数量也非常多,用户不可能从如此众多的结果中一一查找对自己有用的信息,所以,一个好的搜索引擎必须想办法将“质量”较高的页面排在前面。
在实际使用搜索引擎时,我们并不太关心页面返回的个数,而在乎前一两页是否能找到我们所需要的。
因此,对搜索结果按重要性合理的排序就成为搜索引擎的最大核心。
在上述背景下,谷歌的创始人提出了PageRank算法,该算法借鉴学术界论文重要性的评估方法:谁被引用的次数多,谁就越重要。
PageRank算法的核心细想
1、数量指标,如果越多的网页指向A,即A的入链数量越多,则该网页越重要;
<