python爬虫使用redis_set与md5去重实例

 去重是一种思想,不要拘束于某一个点上,去重的方法多种多样,但是各有优点和弊端

去重的五种方式详细分析

1、set与md5的特点

set:无序,不重复,没有索引

md5主要特点:不可逆              md5加密为什么不可逆

2、不去重的弊端:

①、数据重复

在进行批量海量的数据爬取的过程中,不可避免的会有大量的数据是重复的,这个时候就可以选择性的爬取,重复的部分筛掉。

②、陷入死循环

假如url1中有url2的超链接,url2有url3的超链接,url3又有url1的超链接。那么在爬取的过程中,从url1爬取了url2的超链接,从url2爬取了url3的超链接,从url3爬取了url1的超链接,从而陷入了死循环。

 ③、爬虫效率低

如果爬虫因为异常中断,重新开始爬虫的时候,会导致之前已经爬取的数据重复爬取,而导致效率低。

3、redis_set+md5去重代码实现

import redis
from hashlib import md5


class SaveRedisMd5(object):
    '''
        md5Str:需要加密的str
        keys:存入redis的键 
        
        redisResult:返回去重结果,返回0则已存在,返回1则不存在
    '''  
    def __init__(self,md5Str,keys,db=1):
        self.host='localhost'
        self.port=6379
        self.db=db
        self.conn=redis.Redis(host=self.host,port=self.port,db=self.db)
    
        self.md5Str=md5Str
        self.keys=keys

    def master(self):
        #使用md5加密
        md5Result=self.runMd5(self.md5Str)
        #使用redis去重
        redisResult=self.runRedis(self.keys,md5Result)

        #返回去重结果, 已存在返回0   不存在返回1
        print(redisResult)
        return redisResult
        
    #使用redis的set去重    
    def runRedis(self,keys,md5Result):
        try:
            return self.conn.sadd(keys,md5Result )
        finally:
            self.conn.close()
            
    #使用md5加密
    def runMd5(self,md5Str):
        m=md5()
        m.update(md5Str.encode('utf-8'))
        print(m.hexdigest())
        return m.hexdigest()
    

if __name__=='__main__':      
    SaveRedisMd5('shenming','sm').master()

第一次运行结果;

第二次运行结果:

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值