GIS界流行一句话:人类活动80%的信息与地理位置有关。然而,我们得到的数据中有很大一部分却没有地理几何图形,而是一张张文字和数字组成的表格,例如,统计局每年发布的统计年鉴。如何将这些表格定位到地图上,并使用表格数据做空间可视化分析,是GISer需要掌握的基本技能。
本文以全国省级行政区划为地理空间底图,以统计年鉴为属性表来源,从数据预处理、表连接、属性表的使用、表持久化四个方面,演示空间数据与纯属性数据结合并进行分析的过程。
01 获取示范数据
• 全国2015年省级行政区划来自资源环境科学与数据中心,该图层为免费公开的数据,输入网址:http://www.resdc.cn/Default.aspx,注册后即可免费下载。
• 统计年鉴来自国家统计局官网,网址为:http://www.stats.gov.cn/,无需注册即可下载。
为了方便大家,以上数据已经打包上传到网盘,连接如下:
链接:https://pan.baidu.com/s/18vKpBMjOGfT9nHcNo31bFw 提取码:hkyi
02 预处理
打开下载到的统计年鉴数据,本文选择“分地区人口的城乡构成和出生率、死亡率、自然增长率”为例进行操作演示。可以看到,该电子表格并不适合直接导入到QGIS中,在空间数据挂接之前,需要对数据做预处理。
-
处理多重表头
统计年鉴的表头一般由标题和指标名称构成,指标名称可能包含多个层级,需要逐层合并,才能得到某列数据的完整列名,这种复杂的表头样式俗称多重表头。例如上图中第三列的指标名称应为:城镇人口数;第四列指标名称为:城镇人口比重(%)。为了便于计算机处理,在数据整理时一般将复杂的指标名称与数据列名做出对照表,以元数据形式随内容分发。
本文采用的处理步骤为:删除表格标题,用英文代替中文指标名称,保留中英文指标名称之间的对应关系。处理结果如下:
-
删除全国数据和空行
表格中的“全国”或者“合计”行,与其他数据不在同一行政级别上,应删除。为了阅读方便而增加的空行也应去掉。
-
处理省名中的空格
统计年鉴中为了提高阅读舒适度和纸质出版物的美观,在省名称中加入空格以达到对齐效果。由于空格对计算机来说也是字符串的内容