《数学之美》读书笔记_No.10_PageRank

其实很早之前就被推荐《数学之美》这本书,拖到现在才读,最大的感受可能真的是“相见恨晚”。记一些笔记供以后复习翻看。


第10章 PageRank Google的民主表决式网页排名技术

思考:我们经常使用的搜索引擎如何给搜索出的结果排序?
查询的排名依据:网页的质量信息(Quality)、查询与每个网页的相关性(Relevance)

1.PageRank算法原理

(1)关于网站搜索结果排序的研究发展史
雅虎公司:最早使用目录分类的方式
存在的问题
1.收录的网页太少(受计算机存储容量和速度的限制)
2.只能对网页中常见内容相关的实际用词索引
DEC开发AltaVista:只利用一台Alpha服务器,收录的网页远大于过往;对网页上每一个词都能索引
存在的问题:大部分结果与查询内容不太相关
贡献:解决了覆盖率的问题
Inktomi(与AltaVista同时代):多少都发现了互联网网页的质量在搜索结果的排序中也应起一定作用
以上共同问题数学上不很完善

Google创始人拉里·佩奇和谢尔盖·布林
真正找到计算网页自身质量的完善的数学模型

(2)到底什么是PageRank?
一个简单的例子:假如我们要找李开复博士,有100个人举手说自己是,究竟谁是真的?如果大家都说创新工场的那个是真的,那么他就是真的。
PageRank【核心思想】
如果一个网页被很多其他网页所链接,说明它收到普遍的承认和信赖,那么它的排名就高。网页排名高的网站贡献的链接权重大。

【举例】假如网站Y的排名来自于所有指向这个网页的其他网页X1、X2…Xn的权重之和,pagerank=0.001+0.02+0.01+0.05+…

(3)PageRank研究过程中遇到的问题及解决办法
Q1:X1、X2…Xn的权重分别是多少?如何进行度量?
A1:权重是这些网页本身的网页排名。
Q2:如果需要这些网页本身的排名,这个问题将约等于“先有鸡还是先有蛋”?
A2:布林:将这个问题转变成了一个二维矩阵相乘的问题,并用迭代的方法解决。
A2具体步骤:
1.先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名;
2.根据第一次迭代排名算出第二次的排名。
A2理论依据:
不论初始值如何选取,这种算法都能保证网页排名的估计值能收敛到排名的真实值且无需任何人工干预。
Q3:网页数量巨大导致计算量巨大,如何解决?
A3:稀疏矩阵的计算技巧。
Q4:网页数量不断增长,计算量越来越大,如何解决?
A4:2003年,Google工程师Jeffrey Dean和Sanjay Ghemawat发明了并行计算工具MapReduce。


需要pdf版本请留言email,只有横版一页,排版比这个好些。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值