R语言爬取豆瓣图书Top250

最新推荐文章于 2024-04-21 14:16:50 发布

长弓Smile

最新推荐文章于 2024-04-21 14:16:50 发布

阅读量4.1k

点赞数 4

分类专栏： R语言

本文链接：https://blog.csdn.net/u012485480/article/details/79914711

版权

本文介绍了新手如何使用R语言进行网页爬虫，以爬取豆瓣图书Top250为例，详细讲解了如何构造网页URL规律，通过读取网页获取所需内容，并解析数据。最终实现了抓取并展示250条图书信息，同时将数据保存到本地。

摘要由CSDN通过智能技术生成

新手爬虫，使用R中最简单的读取网页，然后获取所需内容所在行进行解析。下面介绍爬取豆瓣图书Top250的案例。
1.首先，我们知道网页规律为：“http://book.douban.com/top250?start=”+index，index为25的倍数，从0开始，表示该页面是从index开始的25条图书数据。
获取网页信息代码如下：

web <- seq()
for(i in 1:9){
  url1<-paste('http://book.douban.com/top250?start=',25*i,'&filter=&type=',sep="")
  web1 <- readLines(url1,encoding="UTF-8")
  web<-c(web,web1)  
}

2.在网页上审查元素，获取我们需要的数据的特征，然后选择所在行进行解析
所有数据长度均为250条