今天在阅读<Lucene搜索引擎开发进阶实战,第一章,网络爬虫策略,
里面提到了网页去重,
网页内容重复分为几类,完全重复,仅内容重复,仅布局重复,部分重复.
针对网页去重,有很多算法支撑,
Shingling算法;I-Match算法;Google专用的SimHash算法(公认最优秀);SpotSig算法
还提到了网页作弊:
网页作弊常见的包括内容作弊;链接作弊;隐藏作弊,以及Web2.0作弊
而常见的反作弊方式:
信任传播模式;不信任传播模式;异常发现模式
相对应以上反作弊模式,有TrustRank;BadRank;SpamRank算法