image from unsplash
很久以前答应同事整点空间数据分析教程,一直答应尽快写,拖了快一年。打算篇幅切碎点硬着头皮写成系列,顺便把手上的知识做一些整理。不保证稳定更新,建议养肥了再杀。
解释下,这里空间数据分析其实就是常规数据分析增加了空间数据的部分。概述
本篇内容关于教程的动机、思路和Python初始环境的安装。
Python空间数据分析的比较优势
空间数据分析常规方案是用ArcGIS、QGIS等专业软件进行,多数功能都是封装好的交互界面,很容易上手。相比,通过代码做空间数据分析的优势在于:
灵活性强,方便实现一些软件不提供的功能。
对大数据量更友好,GIS软件通常容易依赖电脑性能,普通电脑跑1GB的数据都可能崩。自己编程可以高效利用内存,掌握点技巧,处理上百GB也不是问题。
容易批量化处理,适用于一件事情重复干的情况。
如果没有以上痛点,好好学学空间分析软件操作就够用了,要啥自行车。
教程编写思路
个人认为数据分析的学习分为以下阶段:
直接照搬现成代码拿来用(硬抄)
能简单修改现成代码适配自己的问题(有技巧地抄)
能组合、加工现成的代码,解决复杂点的问题(高级抄)
根据问题自行优化现成代码
没有现成代码的情况自己编
所以,教程编写基本思路三个字:抄作业。本教程只涉及前三个阶段,整体逻辑如下:
学习必备的基础(抄作业总得会写字)
提供可用的常见代码模板(作业范本)
指导怎么修改代码模板
提供组合使用代码的常见案例
教程知识内容涉及:
Python必备基础
Pandas(数据分析必学)
GeoPandas (空间数据分析必学)
常见的空间分析方法实现
Python环境安装
建议安装Anaconda,会将Python环境、数据分析常用库、编译环境直接装好。安装免费的individual版本就可以,官网链接:https://www.anaconda.com/products/individual ,400+MB左右,请根据自己的系统选择安装包下载。
不需要安装在C盘,日常点下一步就可以,需要注意windows下建议勾选下图中的“ Add Anaconda to my PATH environment variable ”。
理由是会自动完成了环境变量配置,方便之后库的安装和Jupyter Notebook路径的选择。
官方这里提不推荐的原因是自动配置可能污染之前python环境的环境变量,如果没用过相关环境通常没有影响。不勾选的话需在安装完成后手动配置环境变量,请自行百度“Anaconda环境变量配置”完成(嘿嘿,相当不负责的教程)。