# -*- coding:utf-8 -*- """ 布隆去重的方式: 1.使用scrapy自带的set集合去重,当程序结束set集合会被清空,再次运行会导致数据重复 2.使用mysql做去重,对url地址进行MD5,Base64加密,加密之后会得到一串字符,判断字符串是否在mysql表中,如果在表示已经爬取过,如果不在,表示没有爬取,执行请求,将加密后的url地址存入表中 3.使用scrapy_redis的去重策略,会将已经爬取的url地址经过编码后存入redis,并且会做数据持久化,当爬虫再次启动时,会重新加载本地的数据,对爬虫的url做去重 4.使用布隆去重,采用多重哈希,将url地址映射到位阵列中的某个点上,空间和时间利用率更高(推荐) """
基于python的-布隆去重的方式
最新推荐文章于 2024-03-26 08:21:05 发布