在搜索引擎的发展史上,一开始组织网页的方式是网页索引(人工编辑),Yahoo,DMOZ就是使用的这种方式,但随着网页数量越来越多,这种方式耗时耗力,难以为继。第二种方式就是网页搜索,但缺陷在于,网络是巨大的,充满了不可信,过时和随机的东西。
网页搜索中的两种挑战:
1.网络中存在多个来源的数据,该相信谁?
方法:可信的页面彼此相互引用和链接
2.查询“数据”的最佳回答是什么?
方法:实际关于“数据”的页面往往指向许多数据
所有网页的重要性都不是平等的,我们可以通过链接结构对页面做排序。通过PageRank计算图中节点的重要性。
PageRank的核心思想就是链接投票,页面拥有的链接越多越重要。但不是所有的入链都同等权重,来自重要的链接占更大权重所以这是一个递推问题。
简单递推公式:
1.所有链接的投票权重与其源页面的重要形成比例
2.若页面j的重要性为rj,拥有n个出链,则每个出链用友的投票权重为rj/n
3.页面j自身的重要性为其入链重要性之和
流模型
来自重要页面的投票权重较大
被其他页面指向的页面是重要的