还是关于去重,想着有些请求可能失败以后,虽然回滚了当前爬取失败的url,可是要是此url一直请求失败,应该是要删除的,重新学习了一边基础知识。
# -*- coding: utf-8 -*-
import redis
class UrlOption(object):
'''
这是一个爬虫的url管理器类
'''
def __init__(self,spider_name='',host='127.0.0.1',port=6379,**kwargs):
'''
@params:spider_name 爬虫名称
@params:host redis主机地址
@params:port redis服务端口
@params:kwargs redis其他需要参数
'''
self.counts =