- 博客(1)
- 收藏
- 关注
原创 爬虫去重的策略
1.将访问过的url保存到数据库中 2.将访问过的url保存到set中,o(1),快,但是内存占用很大 3.url经过md5等方法哈希后保存到set中,省内存(scrapy用这种) 4.用bitmap方法,将访问过的url通过hash函数映射到某一位 11111111,压缩内存,但是冲突可能性大 5.bloomfilter方法对bitmap进行改进,多重hash函数降低冲突 ...
2020-03-27 11:36:28 174
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人