现如今的信息技术已经趋于成熟,各种数据存储的技术也相当发达,所以人们将更多的目光放置大数据行业。在这种背景中,大量的存储数据尚未被开发的商业价值被人们所关注并着手开发,融入到每个行业之中。由于现在的大数据应用广泛,有不少的行业都即将进行资源的整合及转型,这给产业的发展带来了极大的机遇。因此,房地产行业也应当融入大数据技术,对房价做出预测,并分析消费者的实际需求,以实现效益最大化。
常用的数据特征分析方法
1 分布分析
分布分析能揭示出数据的分布特征和分布类型,便于发现某些特大或特小的可疑值。对于定量数据,想要了解其分布形式是对称还是非对称的,可以做出频率分布表、频率分布直方图、茎叶图来进行直观性分析。对于定性分类数据,可以用饼状图和条形图直观地显示分布状况。
2 统计量分析
使用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反映变异程度的指标是对个体离开平均水平的度量,使用最广泛的是标准差、四分位间距。
3周期性分析
周期性分析是探索某个变量是否随着事件变化而呈现出的某种周期变化趋势。周期性趋势相对较长的有年度周期性趋势和季度周期性趋势。
4相关性分析
分析连续变量之间的线性的相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。相关分析的方法有直接绘制散点图、绘制散点矩阵、计算相关系数。
实证分析:美国埃姆斯市的房地产销售数据
数据探索
(1)美国宏观经济指标
表 美国宏观经济指标
字段名称 | 类型 |
年份 | 连续 |
人口(百万) | 连续 |
就业人数(百万) | 连续 |
失业率 | 连续 |
国内生产总值(现价国际元) | 连续 |
人均国民总收入(现价国际元/人) | 连续 |
农业增加值占国内生产总值的比重 | 连续 |
工业增加值占国内生产总值的比重 | 连续 |
服务业增加值占国内生产总值的比重 | 连续 |
销售价格 | 连续 |
(2)房地产销售数据
表 房地产销售数据
字段名称 | 字段含义 | 类型 | 取值说明 |
MSZoning | 销售分区 | 离散 | 1:C (all) 2:FV 3:RH 4:RL 5:RM |
HouseStyle | 住宅类型 | 离散 | 1:1.5Fin 2:1.5Unf 3:1Story 4:2.5Fin 5:2.5Unf 6:2Story 7:SFoyer 8:SLvl |
OverallQual | 对于住宅材料和完工程度的评价 | 离散 | 10 Very Excellent 9 Excellent 8 Very Good 7 Good 6 Above Average 5 Average 4 Below Average 3 Fair 2 Poor 1 Very Poor |
Heating | 供暖类型 | 离散 | 1:Floor 2:GasA 3:GasW 4:Grav 5:OthW 6:Wall |
HeatingQC | 供暖质量 | 离散 | 5:Ex 4:Gd 3:TA 2:Fa 1:Po |
Kitchen | 厨房距离地面高度 | ||
KitchenQual | 厨房质量 | 离散 | 4:Ex 3:Gd 2:TA 1:Fa |
Fireplaces | 壁炉数 | 连续 | |
FireplaceQu | 壁炉质量 | 离散 | 5:Ex 4:Gd 3:TA 2:Fa 1:Po |
GarageCars | 车库容量 | 连续 | |
GarageArea | 车库总面积 | 连续 | |
GarageQual | 车库质量 | 离散 | 5:Ex 4:Gd 3:TA 2:Fa 1:Po |
PoolArea | 泳池面积 | 连续 | |
PoolQC | 泳池质量 | 离散 | 3:Ex 2:Gd 1:Fa |
MoSold | 销售月份 | 连续 | |
YrSold | 销售年份 | 连续 | |
SaleType | 销售类型 | 离散 | 1:COD 2:CWD 3:Con 4:ConLD 5:ConLI 6:ConLw 7:New 8:Oth 9:WD |
SaleCondition | 销售条件 | 离散 | 1:Abnorml 2:AdjLand 3:Alloca 4:Family 5:Normal 6:Partial 7:New |
SalePrice | 销售价格 | 连续 |
数据预处理
(1)定类数据
对于定类数据,需要查看每一列是否存在缺失值,如果存在缺失值,将缺失值用众数填充。处理完缺失值以后,对定类数据离散化,首先查找每一列包含的数值种类,再用一连串的数字进行替换即可。
(2)定量数据
对于定量数据,需要查看每一列是否含有缺失值,如果有缺失值,将缺失值用平均值进行填充。在处理好缺失值后,需要对每一列的数据进行异常值判断,如果存在大于Qu+1.5IQR或者小于QL-1.5IQR的数值,则说明存在异常值。对异常值的处理方法是把异常值用平均值进行填充。
数据分析
1美国经济状况
(1)失业率
从下图3-4可以看出,失业率在2007年到2010年以较大的斜率持续上涨,在2010年达到最大,但在2010年之后便陆续下降。代码如图3-5所示。使用plt.plot()绘制折线图,并用plt.xticks()来设置横轴的刻度值。
(2)国内生产总值
由下图3-5可以看出,国内生产总值在2009年开始到2017年期间一直是稳步增长的,但在2017年突然下降,在2018年达到近十年来的最低点,之后又突然上涨,在2019年达到新高,在2019年之后又开始巨跌,2020年又回到了与2018年相同的水平。由于各方面因素的影响,从2016年开始至今,国内生产总值一直是大幅度波动的,反映出经济发展不够稳定。
(3)人均国民总收入
从下图3-6可以看出,人均国民总收入在2019年到2017年一直是以较大的幅度增长的,在2017年达到新高,但在2018年达到近十年以来除2009年的最低点,而且2019年2020年数值并没有增长,继续保持与2018年相同的水平。
(4)农业、工业、服务业生产总值百分比
从图3-7可以看出,'农业、工业、服务业中服务业几乎占美国生产总值中的五分之四,而农业却只占1.2%,工业居于中间位置占20%,由此可以看出,作为人口大国,美国国内生产总值主要来源是服务业。代码如图3-8所示。使用pandas中的mean()来计算三个产业生产总值各自在总生产总值中比重的均值,并将计算的数值插入到列表中,再放到numpy中,利用np.unique()来获取数值种类及其对应的个数,然后用plt.pie()来绘制饼图。
(5)销售价格的相关分析
从图3-9中看出,销售价格的影响因素主要是人口数、失业率、国内生产总值,其中,人口数对销售价格的影响最大,呈现负相关。代码如图3-10所示。利用pandas中的corr()来计算相关系数,并获取到销售价格的相关系数,再用plt.plot()来绘制折线图。
2住宅内部的设施配备条件
(1)住宅类型
从图3-11中可以看出,平房、二层楼房和1-1.5层且第二级完成的住宅是主要的销售住宅类型,其中平房的销售量最多,约占总销售量的50%。
(2)销售分区类型
从图3-12中可以看出,销售分区包括低密度住宅、高密度住宅、流动村住宅、商业住宅、中密度住宅,其中低密度住宅的销售量最多,占总销售量的78.84%。而高密度住宅、流动村住宅、商业住宅的销售量较少。
(3)供暖类型及评价
在供暖类型上,从图3-15中看出,供暖类型包括煤气强制热风炉、落地炉、蒸汽或热水、重力炉、全炉、热水或除煤气外的蒸汽热,其中煤气强制热风炉是主要的供暖类型,占总体的97.81%。
对于每个供暖类型的评价上,从图3-16中看出,消费者对煤气强制热风炉的评价最高,对于落地炉、蒸汽或热水的评价较低。
(4)厨房评价
从厨房距离地面的高度上分析,从图3-17中看出,厨房距离地面的高度分为0、1、2、3,其中大多数消费者认为厨房距离地面的高度为1时最为合适。
(5)壁炉评价
从图3-19中看出,壁炉拥有的数量分为0、1、2、3,47.26%的消费者认为没有壁炉比较合适,44.52%的消费者认为拥有1个壁炉比较合适,7.88%的消费者认为拥有2个壁炉比较合适。
(6)车库评价
从图3-21中看出,车库容量均值为1.86平方英尺,其中大多数消费者认为车库容量在1-2平方英尺最为合适,部分消费者认为车库容量应该在2-3平方英尺。代码如图3-22所示,利用plt.boxplot()来绘制箱线图。
从图3-23中看出,车库面积的均值为473平方英尺,大多数消费者认为车库面积在200-900平方英尺比较合适,有部分消费者认为车库面积应在900-1400平方英尺。
(7)泳池评价
在泳池面积上,从图3-24中看出,泳池面积均值为575.43平方英尺,大多数消费者认为泳池面积在520-620平方英尺比较合适。在泳池质量上,从图3-25中看出,大多数消费者对泳池质量表示非常满意,0.14%消费者表示一般。
图3-24 泳池面积
(8)销售价格的相关分析
从图3-26中看出,住宅总体评价与销售价格的相关性最大,呈现正相关;影响销售价格的主要因素有住宅总体评价、壁炉数量、车库容量、车库面积。
3住宅销售价格
(1)销售价格与销售量分析
从图3-27中可以看出,房屋销售价格分布比较均匀,销售价格的平均值在100000-300000之间,部分房屋的销售价格超过700000。
图3-27
从图3-28中可以看出,2006-2010年的销售价格波动幅度较大,受2008年的金融危机影响,销售价格在2008年达到最低,2008年之后的房屋销售价格普遍低于2008年之前的价格。代码如图3-29所示,利用np.unique()来获取到每一年对应的销售价格总和,再用循环结构逐个计算每一年的平均销售价格,然后绘制折线图。
图3-28
图3-29
从月销售量上分析,在图3-30中,住宅销售量分旺季和淡季,每年的6、7月住宅销售量达到顶峰,旺季在3-8月,淡季在9月-次年的2月。代码如图3-31所示,首先将数据按照销售月份排序,再利用pandas.groupby()对每月的销售价格个数进行分组求和(原数据中没有销售量这一项),并绘制折线图。
图3-30
图3-31
(2)销售条件占比
从图3-32中可以看出,在各个销售条件中,销售条件为“normal”“Partial”“Abnormal”的房屋占绝大多数,其中销售条件为“normal”的房屋占比最大;销售条件为“AdjLand”的房屋,即毗邻土地购买的房屋,在所有在售房屋中占比最小。
图3-32
(3)销售类型占比
从图3-33中可以看出,大多数消费者购买房屋类型是传统的担保契约的住宅、刚建造并出售的新房子、法院官员契约或遗产的房屋,其中86.78%消费者愿意购买传统的担保契约的住宅。
图3-33
结论
(1)销售价格与销售量分析
在住宅内部的设施配备条件上,影响销售价格的因素有住宅总体评价、壁炉数量、车库容量、车库面积。住宅销售价格在2008年受金融危机的影响大幅下降,2008年之后的房屋销售价格普遍低于2008年之前的价格,预计未来几年的房价会继续维持在这一水平。
房地产销售分为旺季和淡季,旺季在3-8月,淡季在9月-次年的2月,其中,每年的6、7月住宅销售量达到顶峰。通过查找资料发现,学区房经常在春季放盘,而夏季利于装修,油漆方便干,还可以更换太阳能绿色环保系统,且雨水较多,容易发现房子漏水等现象。因此,在春季、夏季,购房需求明显上升。同时,销售最多的住宅类型是传统的担保契约的住宅。
(2)消费者的购房需求
在供暖类型上,消费者愿意使用煤气强制热风炉。在厨房距离地面的高度上,大多数消费者认为厨房距离地面的高度为1时最为合适。在壁炉拥有数量上,47.26%的消费者认为没有壁炉比较合适,44.52%的消费者认为拥有1个壁炉比较合适。在车库容量上,大多数消费者认为车库容量在1-2平方英尺最为合适。在车库面积上,大多数消费者认为车库面积在200-900平方英尺比较合适。在泳池面积上,大多数消费者认为泳池面积在520-620平方英尺比较合适。同时,消费者对于住宅建筑材料和完成程度、厨房质量、壁炉质量、供暖质量、泳池质量的评价值都比较高,说明消费者对于在售住宅的质量都比较满意,符合大众的购房需求。
(3)美国宏观经济指标对销售价格的影响
通过分析发现,销售价格的影响因素主要是人口数、失业率、国内生产总值,其中,人口数对销售价格的影响最大,呈现负相关。人口数与失业率是有直接联系的,当失业率增加时,人们会减少消费,特别是对于买房子这件大事上,人们会慎重考虑,选取在价格较低的时候进行购买,因此,人口数与销售价格呈现负相关的关系。