R语言豆瓣图书Top250爬虫之新手教程

最新推荐文章于 2024-01-16 22:41:03 发布

置顶 LUOJIZ1

最新推荐文章于 2024-01-16 22:41:03 发布

阅读量4.3k

点赞数 10

本文链接：https://blog.csdn.net/qq_38865429/article/details/89178911

版权

本人完全是第一次接触爬虫，所以程序较为笨拙，请见谅！
Ok，开始新手爬虫之旅吧！
step1：加载所需要的包

library(rvest) #用于抓取数据
library(xml2)  #rvest的依赖包
library(stringr) #用于数据清洗

step2：解析网页

每页有25本图书的信息，每个图书的书名都带有url属性，
点击进去是该图书的主要介绍内容，也是我们要获取的信息。
其url具有如下规律：每页url前面的内容都一样，只有最后的"start="后面的数字不一样，
起始页的start=0，依次为25,50，…225。

step3：构造所有页面的url,存放在url_all中.

url_all <- data.frame()
for(i in 1:9){
  url_all[i,1] <- paste('https://book.douban.com/top250?start=',25*i,sep = "")
}

step4: 抓取250本图书的url，存放在url_books_all中

url <- 'https://book.douban.com/top250?start=0'
i = 1
url_books_all <- data.frame()
url_books <- data.frame()
while (i <= 10){
  web <- read_html(url)
  url_books1 <- web %>% html_nodes('div.pl2 a') %>% html_attr("href")
  j = 1
  while (j <= 25){
    url_books[j,1] <- url_books1[j]
    j = j + 1
  }
  s <- seq(0,250,25)
  url_books_all[(s[i]+1):(s[i+1]),1] <- url_books[1:25,1]
  url <- url_all[i,1]
  i = i + 1
}

step5: 抓取所有作者

author_all <- data.frame()
authors <- data.frame()
url2 <- 'https://book.douban.com/top250?start=0'
p <- 1
while(p <= 10){
  weba <- read_html(url2)
  author <- weba %>% html_nodes('p.pl') %>% html_text()
  author_extr <- function(x){
    return(str_extract(x,'[^/]+'))
  }
  author <- author_extr(author)
  q = 1
  while (q <= 25){
    authors[q,1] <- author[q]
    q = q + 1
  }
  s <- seq(0,250,25)
  author_all[(s[p]+1):(s[p+1]),1] <- authors[1:25,1]
  url2 <- url_all[p,1]
  p = p + 1
}

step6: 抓取所有书名及评论数，以及图书简介的第1段内容

names <- data.frame()
for(i in 1:250){
  url3 <- url_books_all[i,1]
  webn <- read_html(url3)
  names[i,1] <- webn %>% html_nodes('div#wrapper h1 span') %>% html_text()
  names[i,2] <- webn %>% html_nodes('div.rating_sum a span') %>% html_text()
  introduction <- webn %>% html_nodes('div.intro p') %>% html_text() 
  introduction <- introduction[1]
  names[i,3] <- introduction
}

step7: top250图书排名

order <- 1:250
orders <- data.frame()
for(i in 1:250){
  orders[i,1] <- order[i]
}

step8：将上述抓取的内容（书名，作者，评论数，图书简介，图书链接）合并到数据框books_info中

books_info <- data.frame()

for(i in 1:250){
  books_info[i,1] <- orders[i,1]
  books_info[i,2] <- names[i,1]
  books_info[i,3] <- author_all[i,1]
  books_info[i,4] <- names[i,2]
  books_info[i,5] <- names[i,3]
  books_info[i,6] <- url_books_all[i,1]
}
names(books_info) <- c("Top排行","书名","作者","评论数","图书简介","图书链接")

step9：将books_info保存为csv文件

write.csv(books_info,file = "豆瓣图书Top250.csv")

关于rvest包的详细用法，可以查看其帮助文档，这估计是R用户的看家本领吧，哈哈~
最后，不得不承认R语言的爬虫速度实在是慢，毕竟鱼与熊掌不可兼得嘛~~

LUOJIZ1

关注

10
点赞
踩
26

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫