官网下载Selenium最新版本
目前更新至3.7.1版,本地存放路径为D:\R\library\Rwebdriver\
,名称为selenium-server-standalone-[version.number].jar
,即selenium-server-standalone-3.7.1
运行Selenium需要搭建Java环境
JDK(Java SE Development Kit)指java开发包;其中包括JRE(Java Runtime Environment)即java运行环境。
- 下载:Oracle官网下载JDK,参考stack overflow的回答选择8u151(CPU版本)
- 安装:在D盘新建2个文件夹
jdk1.8
和jre1.8
分别用来作为jdk和jre的安装目录
- 打开下载好的jdk文件
- 点击下一步
- 将jdk工作目录更改为D盘的
jdk1.8
,点击确定并继续
- 将jre工作目录更改为D盘的
jre1.8
,点击下一步并继续
- 安装完成
- 配置java系统环境变量
-
右击【我的电脑】——【属性】——【高级系统设置】——【环境变量】
-
新建系统变量,变量名
JAVA_HOME
,变量值D:\jdk1.8
- 新建系统变量,变量名
classpath
,变量值.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar;
- Path变量修改,主要是告诉操作系统某些路径下有一些命令。该Path变量已经存在,需要在该值的最前面加
%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
,编辑系统变量后点击确定
- 验证java环境
-
【win+R】——【cmd】
-
输入
java
,运行命令
- 输入
javac
,运行命令
- 输入
java -version
,运行命令
至此,JDK配置完成 。
下载浏览器驱动
- 在Selenium下载页面的
Third Party Drivers, Bindings, and Plugins
部分,下载相应浏览器的驱动:
或直接在官网下载谷歌浏览器的驱动ChromeDriver:
- 存放路径建议与浏览器的安装目录相同
C:\Program Files (x86)\Google\Chrome\Application\
,并将该路径设置为系统路径
查看浏览器当前版本
:在Chrome中搜索 chrome://version/
,本机浏览器当前版本为v59.0.3071.115(正式版本)(64 位)。
谷歌浏览器升级
:【打开浏览器】-【右上角更多】-【帮助】-【关于Google Chrome】,将本机Chrome版本升级至v63.0.3239.84(正式版本) (64 位),搭配下载v2.33的浏览器驱动。
查看当前安装的插件/扩展
:在Chrome中搜索 chrome://extensions/
启动Selenium
-
【win+R】——【cmd】
-
输入
java -jar D:\R\library\Rwebdriver\selenium-server-standalone-3.7.1.jar
,运行命令
至此,Selenium成功启动,抓取数据时不要关闭此命令框,直接在R中进行后续操作。
参考资料:
启动selenium服务器
Java运行环境搭建之Jdk配置
Selenium自动化测试(java语言)
R语言数据收集实例(一)——动态网页爬取
下载phantomjs无头浏览器
- 官网下载
- 将无头浏览器的目录添加到系统变量