如果你手上有一批数据,你可能应用统计学、挖掘算法、可视化方法等技术玩转你的数据,但你没有数据的时候,我该怎么玩呢?接下来就带着大家玩玩没有数据情况下的数据分析。
本文从如下几个目录详细讲解数据分析的流程:
1、数据源的获取;
2、数据探索与清洗;
3、模型构建(聚类算法和线性回归);
4、模型预测;
5、模型评估;
一、数据源的获取
正如本文的题目一样,我要分析的是上海二手房数据,我想看看哪些因素会影响房价?哪些房源可以归为一类?我该如何预测二手房的价格?可我手上没有这样的数据样本,我该如何回答上面的问题呢?
互联网时代,网络信息那么发达,信息量那么庞大,随便找点数据就够喝一壶了。前几期我们已经讲过了如何从互联网中抓取信息,采用Python这个灵活而便捷的工具完成爬虫,例如:
当然,上海二手房的数据仍然是通过爬虫获取的,爬取的平台来自于链家,页面是这样的:
我所需要抓取下来的数据就是红框中的内容,即上海各个区域下每套二手房的小区名称、户型、面积、所属区域、楼层、朝向、售价及单价。先截几张Python爬虫的代码,源代码和数据分析代码写在文后的链接中,如需下载可以到指定的百度云盘链接中下载。
上面图中的代码是构造所有需要爬虫的链接。
上面图中的代码是爬取指定字段的内容。
爬下来的数据是长这样的(总共28000多套二手房):
二、数据探索与清洗(一下均以R语言实现)
当数据抓下来后,按照惯例,需要对数据做一个探索性分析,即了解我的数据都长成什么样子。
1、户型分布# 户型分布
library(ggplot2)
type_freq <- data.frame(table(house$户型))
# 绘图
type_p <- ggplot(data =type_freq, mapping = aes(x = reorder(Var1, -Freq),y = Freq)) &#