生而为人,学无止境。
作为爬虫爱好者,最开始的时候多少都会遇到爬取的时候返回各种bug,抓头挠耳吧;
R语言爬虫的包基础的就是rvest和RCurl,解析的就是xml包,当然你还得有html、css、http协议;
但基本的包仅对于静态网页的爬取比较有效,而对于动态网页(渲染网页)就没用了;
接下来写一下R语言里面对于动态网页爬取(AJAX异步渲染/加载网页)的前期环境配置/搭建(模拟浏览器操作)。这里讲的是Rselenium的,至于Rwebdriver包的话类似,但现在它的包不好下载。
1、基于Rselenium包的环境搭建
install.packages("RSelenium")
library(RSelenium)
#浏览器控制函数
remdr <- remoteDriver(browserName ="firefox")
# 打开浏览器,运行这你会很惊喜
remdr$open()
若你直接下载Rselenium并加载,然后打开浏览器的话就会立马报错:
当然这肯定是错误的做法,但同时你也可以看到它的一点提示:Unable to create new service: GeckoDriverService
GeckoDriver是firefox浏览器的驱动,忘了说,这里是以fi