Rselenium包定时自动爬取网页的方法

        当需要持续更新通过爬虫获取的数据时,我们通常可以设置定时任务自动爬取,而不用每次人工运行爬虫程序。
        通过R语言中的Rselenium包爬取数据需要先启动服务器,所以定时爬取就不只是运行一个R语言脚本程序即可。


        要设置R语言Rselenium包定时自动爬取网页有两个方法:
        方法1.先设置定时任务启动服务器(selenium-server-standalone-4.0.0-alpha-2.jar),再设置另一个定时任务运行R语言脚本程序。
        方法2.在批处理程序(.bat程序)中依次启动服务器、运行R语言脚本程序,设置定时任务运行批处理程序。

        如下是通过方法2设置Rselenium包自动定时爬取网页的步骤:
1.准备好R语言爬虫脚本程序。
   最好先在RGui中通过source('待执行脚本.R'),测试通过R语言脚本程序。
   因为Rscript.exe本质是R程序,而RStudio是R的集成开发环境,是不同的两个程序且RStudio的兼容性更好,所以RStudio成功运行的R程序在R中运行可能会出现其他异常需要处理。
   使用Rselenium包爬取数据的方法及示例见:Rselenium爬虫 。
2.编写批处理程序(.bat程序)。
   代码示例如下:
   #启动jar包服务器时,命令行窗口会一直运行,导致批处理不能执行下一句,所以用start开启另一个命令行窗口来执行java -jar命令
   

start "" cmd /k "java -jar E:\auto_run\selenium-server-standalone-4.0.0-alpha-2.jar"

  
   #启动jar包服务器需要一定时间,只有确保启动成功后才能启动R语言爬虫脚本程序,所以这里用ping命令延时20秒
   

ping -n 20 127.1 >nul


   #通过Rscript.exe执行R语言爬虫脚本程序
   

"C:\Program Files\R\R-4.0.2\bin\x64\Rscript.exe" "E:\auto_run\auto_run_ftx\auto_run_ftx.R"


3.设置系统定时任务执行批处理程序(.bat程序)。
   详细设置方法见:win7设置定时任务

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值