python和selenium grid实现分布式爬虫
selenium grid的分布式结构就是由一个hub节点和若干个node代理节点组成。Hub用来管理各个代理节点的注册信息和状态信息,并且接受远程客户端代码的请求调用,然后把请求的命令转发给代理节点来执行。
Selenium Grid环境部署
下载selenium-server-standalone jar包
下载地址
这里我选择下载的版本是selenium-server-standalone-3.9.1.jar
在命令窗口进入selenium-server-standalone-3.9.1.jar存放的目录,如E:\seleniumGrid
启动hub
输入以下命令,将本机当做hub启动
java -jar selenium-server-standalone-3.9.1.jar -role hub -maxSession 10 -port 4444