技术08期:十大经典数据挖掘算法【PageRank篇】

PageRank是谷歌搜索引擎的关键算法,通过衡量网页被引用次数和质量来评估其重要性。它解决了早期关键词匹配算法易受Term Spam攻击的问题,通过迭代计算网页的PageRank值,对搜索结果进行排序。算法考虑了数量和质量两个指标,并引入阻尼系数解决终止点和陷阱问题。PageRank不仅应用于搜索引擎,还广泛用于学术论文评价和社会网络分析等领域。
摘要由CSDN通过智能技术生成

PageRank可以较为直观的理解为是对网页重要性排序的一种算法。

 

Googel 能在全球互联网搜索引擎中处于较高地位,该算法功不可没。

 

导 读

 

早期的搜索引擎通过计算用户查询关键词与网页内容的相关程度来返回搜索结果,即键词匹配算法

 

但该种搜索引擎会极容易遭受Term Spam攻击,导致用户体验满意度大打折扣。

 

例如,在页面上添加一个像“电影”这样的术语,并做数千次,搜索引擎就会认为这是一个非常重要的电影页面。当用户搜索“电影”时,搜索引擎将首先列出该页面。

 

Web页面数量非常巨大,所以一个检索的结果条目数量也非常多,用户不可能从如此众多的结果中一一查找对自己有用的信息,所以,一个好的搜索引擎必须想办法将“质量”较高的页面排在前面。

 

在实际使用搜索引擎时,我们并不太关心页面返回的个数,而在乎前一两页是否能找到我们所需要的。

 

因此,对搜索结果按重要性合理的排序就成为搜索引擎的最大核心。

 

在上述背景下,谷歌的创始人提出了PageRank算法,该算法借鉴学术界论文重要性的评估方法:谁被引用的次数多,谁就越重要

 

 

PageRank算法的核心细想

 

1、数量指标,如果越多的网页指向A,即A的入链数量越多,则该网页越重要;

 

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值