新手爬虫,使用R中最简单的读取网页,然后获取所需内容所在行进行解析。下面介绍爬取豆瓣图书Top250的案例。
1.首先,我们知道网页规律为:“http://book.douban.com/top250?start=”+index,index为25的倍数,从0开始,表示该页面是从index开始的25条图书数据。
获取网页信息代码如下:
web <- seq()
for(i in 1:9){
url1<-paste('http://book.douban.com/top250?start=',25*i,'&filter=&type=',sep="")
web1 <- readLines(url1,encoding="UTF-8")
web<-c(web,web1)
}
2.在网页上审查元素,获取我们需要的数据的特征,然后选择所在行进行解析
所有数据长度均为250条
#书名
name <- web[grep(' <div class=