采集动态加载的网站，除了使用Selenium，还有其他类似的解决方案吗？

最新推荐文章于 2024-05-15 00:51:17 发布

weixin_30823001

最新推荐文章于 2024-05-15 00:51:17 发布

阅读量627

点赞数

文章标签： python r语言爬虫

原文链接：http://www.cnblogs.com/renshaoqi/p/11177615.html

版权

　　我在采集一些网站的时候遇到这样的问题，当我还在调试阶段的时候，我的爬虫在运行以后总是会采集很多数据而难以停止下来，除非我需要Ctrl+C强行暂停才可以，但是有的数据量确实比较庞大，采集速度也特别快，所以我想要在我调试阶段的时候能够制定采集一定的数据，爬虫就会终止下来，这样我既能查看数据是否正确又能不耽误时间。

这个问题其实Scrapy框架已经考虑到了：

CLOSESPIDER_TIMEOUT = 0 # 指定时间退出

CLOSESPIDER_PAGECOUNT = 0 # 抓取了指定数量的响应

CLOSESPIDER_ITEMCOUNT = 0 # 生成指定数据的item

CLOSESPIDER_ERRORCOUNT = 0 # 在发生指定数量的错误

这四个配置其实是在默认配置文件中的，默认都是0。当然也可以使用命令行的方式进行配置：

scrapy crawl spiderName -s CLOSESPIDER_TIMEOUT=30

具体的内容可以参考Scrapy文档：

https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/extensions.html

转载于:https://www.cnblogs.com/renshaoqi/p/11177615.html

weixin_30823001

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
采集动态加载的网站，除了使用Selenium，还有其他类似的解决方案吗？

　　我在采集一些网站的时候遇到这样的问题，当我还在调试阶段的时候，我的爬虫在运行以后总是会采集很多数据而难以停止下来，除非我需要Ctrl+C强行暂停才可以，但是有的数据量确实比较庞大，采集速度也特别快，所以我想要在我调试阶段的时候能够制定采集一定的数据，爬虫就会终止下来，这样我既能查看数据是否正确又能不耽误时间。这个问题其实Scrapy框架已经考虑到了：CLOSESPIDER...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。