PageRank算法

在搜索引擎的发展史上,一开始组织网页的方式是网页索引(人工编辑),Yahoo,DMOZ就是使用的这种方式,但随着网页数量越来越多,这种方式耗时耗力,难以为继。第二种方式就是网页搜索,但缺陷在于,网络是巨大的,充满了不可信,过时和随机的东西。

网页搜索中的两种挑战:

1.网络中存在多个来源的数据,该相信谁?
方法:可信的页面彼此相互引用和链接
2.查询“数据”的最佳回答是什么?
方法:实际关于“数据”的页面往往指向许多数据

所有网页的重要性都不是平等的,我们可以通过链接结构对页面做排序。通过PageRank计算图中节点的重要性。

PageRank的核心思想就是链接投票,页面拥有的链接越多越重要。但不是所有的入链都同等权重,来自重要的链接占更大权重所以这是一个递推问题。

简单递推公式:

1.所有链接的投票权重与其源页面的重要形成比例
2.若页面j的重要性为rj,拥有n个出链,则每个出链用友的投票权重为rj/n
3.页面j自身的重要性为其入链重要性之和

这里写图片描述

流模型

来自重要页面的投票权重较大
被其他页面指向的页面是重要的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值