R语言RCurl爬虫(多线程爬虫)-高评分豆瓣图书

R语言爬虫-高评分图书(豆瓣)

 

 

# R语言爬虫-高评分图书(豆瓣)

本篇文章依然延续之前的爬虫类型文章,多次实操有助于对于代码的理解和技术的提升。此次爬取的是豆瓣上高评分的图书,每一次爬取都会给大家提供一份有价值、有意义的东西 ,每一次都有所提升,我是ERIC,希望喜欢这方面技术的或者对于发表的内容感兴趣都可以相互交流,共同提升。 (此篇爬虫数据采集后只进行了简单的可视化分析,未进行深度分析)

  小编喜欢这些书籍里面最耀眼的那个书籍标签

                                为你,千千万万遍。

           你呢?你喜欢的一本书的经典语录/标签是什么?

小编此次获取的是豆瓣里面排行前250名的书籍,可以都说是经典,虽然评分、评价略有不同,但都是值得细细品味的。

 

#下载包的时候注意下镜像归属,可能会导致包的下载失败、加载失败(可设置包的存储路径,否则软件默认的包存储路径为C盘,会影响你一些功能的使用)

注意了,注意了 ,从这里就开始了哈!这次用到下面这些大包小包的,想学的多查查多看看哈

install.packages("RCurl")
install.packages("XML")
install.packages("parallel")
install.packages("stringr")
install.packages("ggplot2")
install.packages("dplyr")
#包的加载
library(parallel)
library(ggplot2)

 

 

 t<-0#这个你看吧不懂的话,你还是先回去看看书嘛,先用for循环写写看看

 

由于本次爬虫采用的是多线程计算(并行计算),所以需要构造相应的函数

#构造数据爬取函数,哦,对了,为什么要把加载包放在函数里面,这是因为后面的函数要求的,不怪我

books<-function(t){
  library(RCurl)
  library(stringr)
  library(XML)

#HTTP响应回传信息(响应时间、连接时间、表头或者代理服务器是否设置成功)收集,在请求网址失败时可查找相关原因

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LEEBELOVED

一分钱都是爱

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值