采集动态加载的网站,除了使用Selenium,还有其他类似的解决方案吗?

  我在采集一些网站的时候遇到这样的问题,当我还在调试阶段的时候,我的爬虫在运行以后总是会采集很多数据而难以停止下来,除非我需要Ctrl+C强行暂停才可以,但是有的数据量确实比较庞大,采集速度也特别快,所以我想要在我调试阶段的时候能够制定采集一定的数据,爬虫就会终止下来,这样我既能查看数据是否正确又能不耽误时间。

这个问题其实Scrapy框架已经考虑到了:

CLOSESPIDER_TIMEOUT = 0  # 指定时间退出

CLOSESPIDER_PAGECOUNT = 0  # 抓取了指定数量的响应

CLOSESPIDER_ITEMCOUNT = 0  # 生成指定数据的item

CLOSESPIDER_ERRORCOUNT = 0   # 在发生指定数量的错误

这四个配置其实是在默认配置文件中的,默认都是0。当然也可以使用命令行的方式进行配置:

scrapy crawl spiderName -s CLOSESPIDER_TIMEOUT=30

 

具体的内容可以参考Scrapy文档:

https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/extensions.html

转载于:https://www.cnblogs.com/renshaoqi/p/11177615.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值