一、目的
空间分析总的说来,应该有三步:
1.整理数据。
2.数据可视化。
3.量化分析。
因为我一直比较好奇,北京房价有多贵,为什么贵,所以假期抽空就用常规的空间分析方式与步骤,对北京小区的分布和房价做了一个可视化的参考,并对其进行了建模分析。
以下是粗浅的效果:
1.所有房源与地铁线路的叠加。
2.各房源的售卖属性。
3.均价最高的100处房源分布。
4.均价最高的100处房源简介词频统计。
出现频次最高的是金融街,其次是德胜里。
5.热力图
6.影响房价的两大因素,学区与居住人群收入。
7.感谢贫穷,教会了我认知世界。
其实有了数据,可以做很多维度的分析,以后会不断扩展。
二、步骤
1.数据的收集与整理
数据的收集与整理,稍稍有些工作量,因为数据分析的基础,就是收集整理数据。
处理好了数据样本,数据分析就成功百分之八十了。
数据获取,使用python3编写爬虫脚本,从相关网站爬取数据。
数据整理,也是用Python3编写爬虫脚本,将数据格式统一化。
数据源:
小区POI数据;
地铁线路与地铁站数据;
房源数据,位置、售价、简介等;
学区数据,各重点小学;
公司数据,各种大企业;
2.数据可视化
这个我就没写程序了,只是用开源的QGIS工具,进行数据的呈现。
有些简单的图表,使用的是Excel的透视图。
3.量化分析
词频统计,使用的是hanlp分词器,安装的是Python环境。
空间分析使用的是开源的空间分析软件geoda。
三、小结
1.实践出真知。
北京房价贵,这是能感知到的,但我还是更想用数据去支撑这个感知。
很多事情,说着容易,但做起来会更有收获。
会说不是真会,会做才是真会。
2.善用工具。
很多工具,功能很完善了,如果有工具,就没有必要为了实现什么,从底层开始搭建。
地图渲染展示,QGIS很好用。
空间分析,geoda能实现大部分算法,并呈现效果。
Excel,最经典的计算统计工具。
会用软件,用好软件,一点都不low。
重复造轮子没有必要,要善用工具。