r语言爬虫和python爬虫哪个好-R语言爬虫常用方法总结（以案例说明）

最新推荐文章于 2024-05-08 08:13:09 发布

weixin_39520353

最新推荐文章于 2024-05-08 08:13:09 发布

阅读量2.4k

点赞数

原标题：R语言爬虫常用方法总结（以案例说明）

现在大家对爬虫的兴趣不断高涨，R和PYTHON是两个非常有力的爬虫工具。Python倾向于做大型爬虫，与R相比，语法相对复杂，因此Python爬虫的学习曲线会相对陡峭。对于那些时间宝贵，又想从网上获取数据的初学者而言，用R做爬虫是最好的选择，有三个原因：1、R语法相对直观，规则更加灵活；2、对于数据量不大的用户来数（小于百万级），R也能够非常自如地处理；3、先学习R爬虫，等熟悉爬虫的原理之后，在过渡到Python是很容易的。

这篇博文你会学到什么：

使用XML抓取表格数据（爬取勇士队球员数据）

使用rvest抓取网页数据（爬取关于特朗普的百度新闻）

使用jsonlite抓取json格式数据（爬取高德地图温州各个行政区域的中心）

使用RSelenium模拟登录抓取数据（模拟登录人大经济论坛爬取R语言板块数据）

使用PhantomJS不登陆抓取数据（抓取国家数据各省的近13个月CPI）

另外你也会学到一些数据处理的小技巧表格数据抓取

表格数据是最容易抓取的数据格式，直接使用XML包中的readHTMLTable函数，一页中的多个表格会使用列表的形式存储，在使用readHTNLTable的时候，header=T可以标记出所抓取的表格是列名，大多说情况抓过来表格的列名是乱码的，你可以使用rvest::repair_encoding对它们进行修复。爬取勇士队球员数据的代码如下：

#抓取表格数据(抓取勇士队的球员数据)

library(XML)

url <-"http://www.stat-nba.com/team/GSW.html"

dt1 <- readHTMLTable(url,header = T)

names(dt1[[1]]) <- rvest::repair_encoding(names(dt1[[1]]))

head(dt1[[1]])

球员出场首发时间投篮命中出手三分命中出手罚球命中出手篮板

1凯文-杜兰特121234.753.8%8.916.646.7%2.96.386.9%4.45.17.5

2斯蒂芬-库里131332.446.7%7.516.238.8%3.69.394.4%6.56.84.7

3克莱-汤普森131332.951.4%8.516.547.1%3.77.875.0%0.50.63.8

4德雷蒙德-格林131329.849.5%3.57.035.7%1.23.279.4%2.12.67.9

5大卫-韦斯特12011.368.6%2.94.375.0%0.30.380.0%0.70.82.3

6尼克-杨12013.044.1%2.24.941.7%1.74.060.0%0.30.41.0

前场后场助攻抢断盖帽失误犯规得分

10.86.84.90.62.43.42.325.2

20.54.26.71.80.22.62.225.2

30.53.42.70.70.81.82.221.1

41.16.86.71.01.33.23.010.2

51.01.31.30.71.41.41.66.8

60.30.80.90.80.10.41.16.3rvest抓取网页数据

rvest是R用户使用率最多的爬虫包，它简洁地语法可以解决大部分的爬虫问题。它的使用方法比

最低0.47元/天解锁文章

weixin_39520353

关注

0
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
r语言爬虫和python爬虫哪个好-R语言爬虫常用方法总结（以案例说明）

原标题：R语言爬虫常用方法总结（以案例说明）现在大家对爬虫的兴趣不断高涨，R和PYTHON是两个非常有力的爬虫工具。Python倾向于做大型爬虫，与R相比，语法相对复杂，因此Python爬虫的学习曲线会相对陡峭。对于那些时间宝贵，又想从网上获取数据的初学者而言，用R做爬虫是最好的选择，有三个原因：1、R语法相对直观，规则更加灵活；2、对于数据量不大的用户来数（小于百万级），R也能够非常自如地处理；...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。