网页去重和网页反作弊

今天在阅读<Lucene搜索引擎开发进阶实战,第一章,网络爬虫策略,

 

里面提到了网页去重,

网页内容重复分为几类,完全重复,仅内容重复,仅布局重复,部分重复.

针对网页去重,有很多算法支撑,

Shingling算法;I-Match算法;Google专用的SimHash算法(公认最优秀);SpotSig算法

 

还提到了网页作弊:

网页作弊常见的包括内容作弊;链接作弊;隐藏作弊,以及Web2.0作弊

 

而常见的反作弊方式:

信任传播模式;不信任传播模式;异常发现模式

相对应以上反作弊模式,有TrustRank;BadRank;SpamRank算法

转载于:https://www.cnblogs.com/simplelovecs/p/5129128.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值