1.将访问过的url保存到数据库中
2.将访问过的url保存到set中,o(1),快,但是内存占用很大
3.url经过md5等方法哈希后保存到set中,省内存(scrapy用这种)
4.用bitmap方法,将访问过的url通过hash函数映射到某一位 11111111,压缩内存,但是冲突可能性大
5.bloomfilter方法对bitmap进行改进,多重hash函数降低冲突
爬虫去重的策略
最新推荐文章于 2023-03-23 23:47:10 发布
1.将访问过的url保存到数据库中
2.将访问过的url保存到set中,o(1),快,但是内存占用很大
3.url经过md5等方法哈希后保存到set中,省内存(scrapy用这种)
4.用bitmap方法,将访问过的url通过hash函数映射到某一位 11111111,压缩内存,但是冲突可能性大
5.bloomfilter方法对bitmap进行改进,多重hash函数降低冲突