R爬虫(rvest)

基于R

相信自己,每天多学一点。

温故而知新,如有错误请指正。

 

东方玄学,总是充满了神奇的。

(一本正经的背景:射手座水逆的很严重啊= = )

(好吧,就是闲的没事想找找周易玄学的书了)= = 

这次用到了R包 中的爬虫weapon之一 rvest。

 

爬虫的网站是当当网(书的资源比较舒服,爬的也舒服~~)

 

首先是导入包

首页的网址:http://category.dangdang.com/pg1-cp01.28.01.17.00.00.html

在这里我们其实已经可以找找规律了,页码在pg后位数字表示,

然后在查看源码,会发现在html中我们所需要的信息都已经包括了(不愧是超文本~~)

 

这里,我们直接可以read_html

结果会得到很多一串的东西,就是之前看到的源码

 

这里我们可以直接看标签正则取出来我们需要的东西的

最后直接整理一下,作为数据框返回就好了~

 

好吧,其实到这里,mission completely~~~

 

但是还有一个问题的,这只是爬取了第一页的数据的,那么要是想爬取多个应该怎么办呢?

好吧,这个也很简单的。

循环搞定。

这里,我会先把上面的爬取的东西集合,作为一个自定义函数,如下:

 

下面,直接写一个for循环解决问题。

 

下面,没然后了,想写出为csv也行,随便咯~

我这边是写出为csv了~

看一下效果~

 

好啦,今晚就稍微皮一下就好了~~

溜了溜了~

  • 1
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值