第一步:安装berkeleydb数据库
第二部:pip install bsddb3
第三部:pip install scrapy-deltafetch
第四部:
settings.py设置
SPIDER_MIDDLEWARES = { ‘scrapy_deltafetch.DeltaFetch’: 100 }
DELTAFETCH_ENABLED = True
DELTAFETCH_ENABLED = True #是否启用该中间件 ,我们在settings.py文件中进行配置
DELTAFETCH_DIR = '路径地址' #存储URL的路径
DELTAFETCH_RESET = 1 #是否清空数据库 或者使用 scrapy crawl example -a deltafetch_reset = 1
重复爬取须重置缓存
命令:scrapy crawl meishi -a deltafetch_reset=1