链接挖掘算法之PageRank算法和HITS算法

最新推荐文章于 2018-11-02 11:30:00 发布

Android路上的人

最新推荐文章于 2018-11-02 11:30:00 发布

阅读量1.5w

点赞数 3

分类专栏：机器学习数据挖掘算法经典数据挖掘算法文章标签：算法数据挖掘数据机器学习

本文链接：https://blog.csdn.net/androidlushangderen/article/details/43311943

版权

本文介绍了链接分析中的PageRank和HITS算法。PageRank通过网页之间的链接计算重要性，抵抗Term Spam攻击；HITS则考虑网页的权威性和枢纽值。这两种算法在搜索引擎优化中起到关键作用，并在防止链接作弊方面各有挑战。

摘要由CSDN通过智能技术生成

参考资料：http://blog.csdn.net/hguisu/article/details/7996185
更多数据挖掘算法：https://github.com/linyiqun/DataMiningAlgorithm

链接分析

在链接分析中有2个经典的算法，1个是PageRank算法，还有1个是HITS算法，说白了，都是做链接分析的。具体是怎么做呢，继续往下看。

PageRank算法

要说到PageRank算法的作用，得先从搜索引擎开始讲起，PageRank算法的由来正式与此相关。

搜索引擎

最早时期的搜索引擎的结构，无外乎2个核心步骤，step1:建立庞大的资料库，step2:建立索引库，用于指向具体的资料。然后就是用户的查找操作了，那怎么查呢，一个很让人会联想到的方法就是通过关键字匹配的方法，例如我想输入张三这个关键词，那我就会在资源中查包含有张三这个词语的文章，按照关键词匹配方法，只要一篇文章中张三出现的次数越多，就越是要查询的目标。(但是更公正的方法应是次数/文章总次数，一个比值的形式显然更公平)。仔细这么想也没错。好继续往下。

Term Spam攻击

既然我已经知道了搜索的核心原理，如果我想要让我的网页能够出现在搜索的结果更靠前的位置，只要在页面中加入更多对应的关键词不就OK了，比如在html的div中写入10000个张三，让后使其隐藏此标签，使得前端页面不受影响，那我的目的岂不是达到了，这就是Term Spam攻击。

PageRank算法原理

既然关键词匹配算法容易遭到攻击，那有什么好的办法呢，这是候就出现了著名的PageRank算法，作为新的网页排名/重要性算法，最早是由Google的创始人所写的算法，PageRank算法彻底摒弃了什么关键词不关键词的，每个网页都有自己的PageRank值，意味一个网页的重要程度，PR值越高，最后呈现的位置更靠前。那怎么衡量每个网页的重要程度呢，答案是别的页面对他的链接。一句话，越多的网页在其内容上存在指向你的链接，说明你的网页越有名。具体PR值的计算全是通过别的网页的PR值做计算的，简单计算过程如下：

假设一个由只有4个页面组成的集合：A，B，C和D。如果所有页面都链向A，那么A的PR（PageRank）值将是B，C及D的和。