基于python的-布隆去重的方式

# -*- coding:utf-8 -*-

"""
    布隆去重的方式:
1.使用scrapy自带的set集合去重,当程序结束set集合会被清空,再次运行会导致数据重复
2.使用mysql做去重,url地址进行MD5,Base64加密,加密之后会得到一串字符,判断字符串是否在mysql表中,如果在表示已经爬取过,如果不在,表示没有爬取,执行请求,将加密后的url地址存入表中
3.使用scrapy_redis的去重策略,会将已经爬取的url地址经过编码后存入redis,并且会做数据持久化,当爬虫再次启动时,会重新加载本地的数据,对爬虫的url做去重
4.使用布隆去重,采用多重哈希,url地址映射到位阵列中的某个点上,空间和时间利用率更高(推荐)

"""
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值