R语言实现简单的网页数据抓取

在知乎遇到这样一个问题。

https://www.zhihu.com/question/26385408/answer/147009602

这是要爬取的内容的网页:
这里写图片描述

R语言的代码的实现方式如下:

#安装XML包
>install.packages("XML")
#载入XML包
> library(XML)
#确定网页地址,通过网页地址分析网页表格
> url<-"http://hz.house.ifeng.com/detail/2014_10_28/50087618_1.shtml"
> tbls<-readHTMLTable(url)
> sapply(tbls,nrow)
NULL NULL 
  93    8 

#读取网页url的第一张表
> pop<-readHTMLTable(url,which = 1)
#存储pop为CSV文档
> write.csv(pop,file="F:/pop.csv")

我们还可以保存为其他格式:

#保存为简单文本:
>write.table(x, file = "*.txt")
#保存为R格式文件:
>save(x, file = "*.Rdata")

这里写图片描述

  • 7
    点赞
  • 68
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值