爬虫的去重策略

1 保存到数据库

2 保存到set( 占用空间大)

3 url经过md5等方法哈希后保存到set中  (scrapy采用了类似方法)

4 用bitmap方法,将访问过的url通过hash函数映射到某一位(易冲突)

5 bloomfilter方法进行改造,多重hash函数降低冲突()

bitmap

bloom filter    http://baike.baidu.com/link?url=iyOTf2Z0Ya-fi1BR7YygxuYgWdGgpU6GJs_bsKU8iadWFJfWhEBt-qqNotEqcdRUrmg-cSdDTGvB-3HEJKsg_FQ0Ga8MTH61-bBtA9CQkMe

待续

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值