数据分析案例--以上海二手房为例

本文介绍了在没有数据的情况下,如何通过网络爬虫获取上海二手房数据,然后进行数据探索、清洗、模型构建(包括聚类和线性回归)、模型预测和评估。通过R语言实现了数据的预处理,包括对户型、面积、楼层的处理,以及处理非正态分布的房价。最后,通过线性回归模型建立了房价预测模型。
摘要由CSDN通过智能技术生成

如果你手上有一批数据,你可能应用统计学、挖掘算法、可视化方法等技术玩转你的数据,但你没有数据的时候,我该怎么玩呢?接下来就带着大家玩玩没有数据情况下的数据分析。

本文从如下几个目录详细讲解数据分析的流程:

1、数据源的获取;

2、数据探索与清洗;

3、模型构建(聚类算法和线性回归);

4、模型预测;

5、模型评估;

一、数据源的获取

正如本文的题目一样,我要分析的是上海二手房数据,我想看看哪些因素会影响房价?哪些房源可以归为一类?我该如何预测二手房的价格?可我手上没有这样的数据样本,我该如何回答上面的问题呢?

互联网时代,网络信息那么发达,信息量那么庞大,随便找点数据就够喝一壶了。前几期我们已经讲过了如何从互联网中抓取信息,采用Python这个灵活而便捷的工具完成爬虫,例如:

通过Python抓取天猫评论数据

使用Python实现豆瓣阅读书籍信息的获取

使用Python爬取网页图片

当然,上海二手房的数据仍然是通过爬虫获取的,爬取的平台来自于链家,页面是这样的:

我所需要抓取下来的数据就是红框中的内容,即上海各个区域下每套二手房的小区名称、户型、面积、所属区域、楼层、朝向、售价及单价。先截几张Python爬虫的代码,源代码和数据分析代码写在文后的链接中,如需下载可以到指定的百度云盘链接中下载。

上面图中的代码是构造所有需要爬虫的链接。

上面图中的代码是爬取指定字段的内容。

爬下来的数据是长这样的(总共28000多套二手房):

二、数据探索与清洗(一下均以R语言实现)

当数据抓下来后,按照惯例,需要对数据做一个探索性分析,即了解我的数据都长成什么样子。

1、户型分布# 户型分布

library(ggplot2)

type_freq <- data.frame(table(house$户型))

# 绘图

type_p <- ggplot(data =type_freq, mapping = aes(x = reorder(Var1, -Freq),y = Freq)) &#

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值