Google Page Rank 算法解析

本文介绍了Google PageRank算法,这是Google搜索引擎背后的关键技术,用于网页重要性排名。基本思想是网页被其他网页链接的数量和质量影响其排名。通过计算链接矩阵的特征向量,找出网页得分,解决这一问题涉及线性代数中的特征值和特征向量。文章讨论了column-stochastic矩阵及其性质,并提及算法存在的高阶特征值和无外向链接网页的问题。
摘要由CSDN通过智能技术生成

今天Matrix Analysis课上老师布置了关于google公司搜索技术的阅读材料,也就是著名的PageRank算法,读过之后觉得很有意思,在这里尽量用通俗的语言分享给大家,希望对大家有所裨益。

这篇文章基本是从“The 25, 000, 000, 000 eigenvector: The linear algebra behind Google”[1] 翻译过来,有兴趣的或者我没有讲清楚的地方可以参考原文。

1.  简介

当Google在上世纪九十年代末期上线的时候,表现出来的优异的特质,相比于其他的搜索引擎,他总是能够将最相关最需要的网页放在搜索列表的前列,而这搜索魔法的背后,就是其PageRank算法在起作用。

通常一个搜索引擎需要做以下三件事:

1.     将网络上所有网页爬下来,这也就是通常所说的网络爬虫

2.     对所有爬下来的网页进行索引,以便更有效率的搜寻

3.     对数据库中的每个网页进行重要程度的评价,最重要的网页会在搜索结果中排列在前面

下面主要介绍第三部,虽然有其他算法进行网页重要性排序,但本文仅仅介绍PageRank算法。

2.  How to rank pages

i.         Basic idea

我们用重要程度得分(importance score)来表示一个网页的重要程度,自然地这个得分应该是一个非负数。如何打分的中心思想是,其他网页指向该网页的链接的数量,数量越多,我们就有理由相信这个网页越重要,重要性得分相应的就应该越高。形象的讲,网页的重要程度是依靠其他网页对其进行投票,而这选票就是其他网页指向该网页的链接的数量。

假设我们有n的网页,用k对

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值