借助Python来实现的定量城市研究,主要是要解决大量(此处定义为,手动较难或费时的数据量)和非结构化数据的获取和处理问题,在对Python基本库,包括请求库、解析库和存储库的熟悉的基础上,还需要进一步学习数据处理的基本理论与方法,以此实现基本分析,甚至是面对空间分析的特定需求的数据结构与类型。
一、数据处理基础
(一)数据分析的概念
城市数据分析,可以从数据分析的广义和狭义两个角度来看: 狭义的数据 分析是指根据分析目的,采用对比分析、分组分析、交叉分析和回归分析等分析方法,对相关城市数据(包括统计数据和爬取的网络开放数据)进行处理与分析,提取有价值的信息,发挥数据的作用,得到一个特征统计量结果过程。可以用来进行城市的空间特征的计量分析、网络分析等。 更进一步,深层次的数据分析可以参照数据挖掘来认识,即是从大量的、不完全的、有噪声的、模糊的、随机的城市数据中,通过应用聚类、分类、回归和关联规则等技术,挖掘潜在价值的过程。可以用来实现智慧城市的更深层次应用,包括识别、预测等。(二)数据分析的流程
- 需求分析:城市数据分析中的需求分析也是分析环节的第一步和最重要的步骤之一,决定了后续分析的方向、方法。
- 数据获取:数据是城市数据分析工作的基础,是指根据需求分析的结果提取,收集数据。
- 数据预处理:数据预处理是指对城市相关数据进行合并,数据清洗,数据变换和数据标准化,数据变换后使得整体数据变为干净整齐,可以直接用于分析建模这一过程的