R语言：RSelenium包爬取动态网页

偷闲阁

于 2018-01-07 23:28:58 发布

阅读量1.2w

点赞数 7

分类专栏： R语言网络爬虫文章标签： R语言 RSelenium 动态网页爬虫 rvest

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40628687/article/details/78998740

版权

　　目前很多网站的数据采用异步加载的方式呈现，以进口商品统计月报为例，当我们点击下一页时，表格中的数据会更新，但是网站的URL不会发生变化。对于这种网站，如果使用rvest包或RCurl包进行爬取，只能抓到第一页的数据。不过不用担心，对付这种情况，可以使用R语言中RSelenium包。

　　RSelenium包可以通过调用Selenium Server来模拟浏览器环境，它可以模拟浏览器的点击、滚动、滑动以及文字输入等操作，抓取经过浏览器渲染过的页面。但是Selenium是Java程序，因此在使用RSelenium包之前必须为计算机设置Java环境，具体前期准备工作可以参考R语言爬取动态网页：使用RSelenium包和Rwebdriver包的前期准备。

　　使用RSelenium包控制浏览器主要依靠remoteDriver系列函数:

　　remoteDriver( remoteServerAddr,

　　　　　　　　　port,

　　　　　　　　　browserName,

　　　　　　　　　path,

　　　　　　　　　version,

　　　　　　　　　platform,

　　　　　　　　　javascript,

　　　　　　　　　nativeEvents,

　　　　　　　　　serverURL,

　　　　　　　　　sessionInfo)

　　其中，参数remoteServerAddr，表示远程服务器的IP地址，默认值是本机地址，是character型；

　　参数port，表示远程服务器连接端口，

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。