selenium多实例爬虫的忠告和参数配置

robinspada

已于 2023-06-29 14:47:20 修改

阅读量2.3k

点赞数 3

文章标签：爬虫 selenium python

于 2023-05-04 11:04:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/robinspada/article/details/130481622

版权

本文介绍了使用selenium进行多进程爬虫时的配置和注意事项，强调了多进程选择、框架选择、任务队列管理、内存泄漏问题以及selenium参数配置，特别是`--user-data-dir`和`--remote-debugging-port`参数的设置，以避免错误和进程隔离问题。

摘要由CSDN通过智能技术生成

使用多进程

加快爬虫速度的方法有几种，异步，多线程，多进程和分布式，不管是哪种都会用到多实例。这几种方法中，只有多进程适合selenium，selenium本身不支持异步，多线程曾经尝试过似乎有问题。

采用哪种框架

单线程爬虫本身很简单，而大规模的分布式多进程爬虫就比较复杂，Scrapy这种简单的框架拿来学习用或者做简单事情够用了，真实的需求往往比较复杂，需要大量定制，需要对Scrapy非常了解，与其被Scrapy这个框框限制住，不如自己写。没有完全通用的框架，爬虫共通的部分只有URL去重，除非有非常适合需求的框架，否则不如自己写。如果是大规模分布式多进程爬虫，可以采用celery来做分布式框架，爬虫自己写。

自己写爬虫需要注意什么

爬虫归结起来有几个部分：

0.从任务队列中获取URL

单线程爬虫可以直接采用list数据类型，多进程的一般使用数据库比如redis，对任务调度有很复杂的要求的话，可以使用mysql

1.下载网页（借助selenium，requests）

2.分析网页数据和下层链接，按需要保存（使用xpath等等）

3.下层链接按照需要进行筛选，去掉重复URL后，加入任务队列

如果是单线程爬虫，去重可以直接用python的set数据类型，如果是多进程爬虫，通常使用redis的set数据类型。

4.循环直到任务队列为空

采用哪个平台<

最低0.47元/天解锁文章

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
2
评论
selenium多实例爬虫的忠告和参数配置

单线程爬虫本身很简单，而大规模的分布式多进程爬虫就比较复杂，Scrapy这种简单的框架拿来学习用或者做简单事情够用了，真实的需求往往比较复杂，需要大量定制，需要对Scrapy非常了解，与其被Scrapy这个框框限制住，不如自己写。当然C#,java也算是主流，其他的不建议选择。windows和linux都使用过，个人建议使用linux，windows上感觉有内存泄漏，爬虫跑多了会内存不足，还有一个重要原因是linux可以使用docker，docker绝对是安装开发部署的利器，测试环境更是必备。
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。