scrapy 断点续爬

最新推荐文章于 2023-12-21 22:28:21 发布

weixin_30834783

最新推荐文章于 2023-12-21 22:28:21 发布

阅读量526

点赞数

文章标签： python 数据库

原文链接：http://www.cnblogs.com/pxfb/p/10373586.html

版权

第一步：安装berkeleydb数据库

第二部：pip install bsddb3

第三部：pip install scrapy-deltafetch

第四部：

settings.py设置

SPIDER_MIDDLEWARES = { ‘scrapy_deltafetch.DeltaFetch’: 100 }

DELTAFETCH_ENABLED = True

DELTAFETCH_ENABLED = True #是否启用该中间件，我们在settings.py文件中进行配置

DELTAFETCH_DIR = '路径地址' #存储URL的路径

DELTAFETCH_RESET = 1 #是否清空数据库或者使用 scrapy crawl example -a deltafetch_reset = 1

重复爬取须重置缓存

命令：scrapy crawl meishi -a deltafetch_reset=1

转载于:https://www.cnblogs.com/pxfb/p/10373586.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注