R语言爬取豆瓣图书Top250

本文介绍了新手如何使用R语言进行网页爬虫,以爬取豆瓣图书Top250为例,详细讲解了如何构造网页URL规律,通过读取网页获取所需内容,并解析数据。最终实现了抓取并展示250条图书信息,同时将数据保存到本地。
摘要由CSDN通过智能技术生成

新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析。下面介绍爬取豆瓣图书Top250的案例。
1.首先,我们知道网页规律为:“http://book.douban.com/top250?start=”+index,index为25的倍数,从0开始,表示该页面是从index开始的25条图书数据。
获取网页信息代码如下:

web <- seq()
for(i in 1:9){
  url1<-paste('http://book.douban.com/top250?start=',25*i,'&filter=&type=',sep="")
  web1 <- readLines(url1,encoding="UTF-8")
  web<-c(web,web1)  
}

2.在网页上审查元素,获取我们需要的数据的特征,然后选择所在行进行解析
所有数据长度均为250条

#书名
name <- web[grep(' <div class=
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值