现如今的信息技术已经趋于成熟,各种数据存储的技术也相当发达,所以人们将更多的目光放置大数据行业。在这种背景中,大量的存储数据尚未被开发的商业价值被人们所关注并着手开发,融入到每个行业之中。由于现在的大数据应用广泛,有不少的行业都即将进行资源的整合及转型,这给产业的发展带来了极大的机遇。因此,房地产行业也应当融入大数据技术,对房价做出预测,并分析消费者的实际需求,以实现效益最大化。
常用的数据特征分析方法
1 分布分析
分布分析能揭示出数据的分布特征和分布类型,便于发现某些特大或特小的可疑值。对于定量数据,想要了解其分布形式是对称还是非对称的,可以做出频率分布表、频率分布直方图、茎叶图来进行直观性分析。对于定性分类数据,可以用饼状图和条形图直观地显示分布状况。
2 统计量分析
使用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面进行分析。平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数;反映变异程度的指标是对个体离开平均水平的度量,使用最广泛的是标准差、四分位间距。
3周期性分析
周期性分析是探索某个变量是否随着事件变化而呈现出的某种周期变化趋势。周期性趋势相对较长的有年度周期性趋势和季度周期性趋势。
4相关性分析
分析连续变量之间的线性的相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。相关分析的方法有直接绘制散点图、绘制散点矩阵、计算相关系数。
实证分析:美国埃姆斯市的房地产销售数据
数据探索
(1)美国宏观经济指标
表 美国宏观经济指标
字段名称 |
类型 |
年份 |
连续 |
人口(百万) |
连续 |
就业人数(百万) |
连续 |
失业率 |
连续 |
国内生产总值(现价国际元) |
连续 |
人均国民总收入(现价国际元/人) |
连续 |
农业增加值占国内生产总值的比重 |
连续 |
工业增加值占国内生产总值的比重 |
连续 |
服务业增加值占国内生产总值的比重 |
连续 |
销售价格 |
连续 |
(2)房地产销售数据
表 房地产销售数据
字段名称 |
字段含义 |
类型 |
取值说明 |
MSZoning |
销售分区 |
离散 |
1:C (all) 2:FV 3:RH 4:RL |