将下载好的bloomfilter文件例如 BloomfilterOnRedis放在scrapy_redis中
打开dupefilter.py文件
首先导入
from .BloomfiterOnRedis import BloomFilter
在初始化函数中添加
self.bf = BloomFilter(server=server, key=key)
在reque_seen函数中添加判断
# 集成布隆过滤
# 过滤域名是否存在
if self.bf.isContains(fp):
# 在返回True
return True
else:
# 不在返回False
self.bf.insert(fp)
return False
将add两句注释掉
filter 过滤