r语言html_text(),R语言抓取链家网数据

library(rvest)

url0

name=area=price=type=address=status=NULL

for(i in 1:10)

{

url

web

name % html_nodes('div.info-panel') %>%

html_nodes('a') %>% html_text())

address % html_nodes('div.info-panel') %>%

html_nodes('div.where') %>% html_nodes('span.region') %>%

html_text())

b=web %>% html_nodes('div.info-panel') %>% html_nodes('div.area')

are=rep(0,length(b))

for (i in 1:length(b))

{

if (str_length(b[i]) > 60){

are[i] = b[i]%>% html_nodes('span') %>% html_text()

}else{

are[i] = 0

}

}

area=c(area,ifelse(are=='0','0',unlist(str_extract(are,'[0-9]+~[0-9]+|[0-9]+'))))

a % html_nodes('div.info-panel') %>% html_nodes('div.average')

price=rep(0,length(a))

for (i in 1:length(a))

{

if (str_length(a[i]) > 100){

price[i] = a[i]%>% html_nodes('span.num') %>% html_text()

}else{

price[i] = 0

}

}

price=c(price,price)

type % html_nodes('div.info-panel') %>%

html_nodes('div.type') %>% html_nodes('span.live') %>% html_text())

status % html_nodes('div.info-panel') %>%

html_nodes('div.type') %>% html_nodes('span.onsold') %>% html_text())

}

data=data.frame(name,address,area,price=as.numeric(price),type,status)

DT::datatable(data)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值