R言rvest包爬取南京二手房信息

最新推荐文章于 2023-02-12 14:32:01 发布

一个统计学小生的数据分析梦

最新推荐文章于 2023-02-12 14:32:01 发布

阅读量1k

点赞数 2

分类专栏： R语言实践文章标签： R语言 rvest 爬虫

本文链接：https://blog.csdn.net/weixin_40278806/article/details/80319389

版权

R语言的理论学习也已经有一段时间了，数据分析的基础就是要获取数据，在如今的互联网时代，获取网络数据成为了数据分析师必不可少的随身技能，本篇就模仿R语言爬虫利器：rvest包+SelectorGadget抓取链家杭州二手房数据用rvest包爬取链家南京二手房的信息。

先上此次爬虫的源代码：

library(xml2)
library(rvest)
library(stringr)
library(dplyr)
i <- 1:100
house_inf <- data.frame()
 #此处新建house_inf数据框很重要，如若不建立此数据框以下代码则只会爬取1页的信息
for (i in 1:100){
  webpage <- read_html(str_c("https://nj.lianjia.com/ershoufang/pg",i),encoding="UTF-8")
   #链家的编码格式为"UTF-8"，如若爬取其他网站，可能有所变更
  house_name_html <- html_nodes(webpage,".houseInfo a")
   #爬取房屋名称
  house_name <- html_text(house_name_html)
   #将房屋数据转化为文本
  price_html <- html_nodes(webpage,".unitPrice span")
  price <- html_text(price_html)
  house_basic_html <- html_nodes(webpage,".houseInfo")
  house_basic <- html_text

最低0.47元/天解锁文章

一个统计学小生的数据分析梦

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
R言rvest包爬取南京二手房信息

R语言的理论学习也已经有一段时间了，数据分析的基础就是要获取数据，在如今的互联网时代，获取网络数据成为了数据分析师必不可少的随身技能，本篇就模仿R语言爬虫利器：rvest包+SelectorGadget抓取链家杭州二手房数据用rvest包爬取链家南京二手房的信息。先上此次爬虫的源代码：library(xml2)library(rvest)library(stringr)...
复制链接

扫一扫