空间统计学习笔记系列
文章目录
前言
上一篇笔记学习到了一些空间统计的基础概念,这一篇记录空间分布模式的相关
一、空间分布
空间分布模式是空间统计学的主要研究方向之一,万事万物都是在一定的地理空间背景上发展起来的,所以各种现象都必然会具备一定的 局域特征 和发展上的 不平衡特性 ,如何研究这些特性,以及尽可能去调整各种影响因素和政策,就成了空间统计学的最主要任务。
例如,世界三大人种分布、中国人口密度分布等。
1.分布的概念
- 研究空间分布模式,就是试图理解为什么物体会被放置在这个特定的位置。
- 单个物体不存在分布一说,只有多个事物同时出现在同一(特定)区域内,才会有分布一说。
- 所以说,分布通常是指多个事物之间的相对方向、距离、范围等物理定义。
2.聚合 Aggregation
聚合(Aggregation)是统计学赖以存在的经典用途。
——Stephen M.Stigler
将总体样本细节隐藏,用概括性的信息来进行描述。所有这些聚合汇总性质的指标,也就成了统计的“代名词”,所以经常把这些描述性的词汇叫做"统计值"。
例如,平均数、中位数、众数、极差、四分位数、标准差。
空间统计上也有类似的度量指标,
(1) 中心: 中心要素、平均中心、中位数中心
(2) 距离:标准距离、领域距离
(3) 范围与方向:分布范围、指向
(4) …
3. 三类空间分布模式
已知理论模式,一般有如下三类: 聚集、随机、离散。
将我们观测到的模式,与以上三种进行比较,更接近哪种。
就类似于,用PH试纸来比较酸碱度。
后面将学到莫兰指数等。
最简单的聚集判断算法Join Count: 对所研究的要素之间,通过连接计数分析的方式来评估要素具有聚类趋势还是离散趋势的一种方法。
4.空间分布分析原则
- 在空间统计中,判断空间分布(离散、聚集、随机)的关键,在于 空间关系 与 属性信息 的共同作用。
- 空间关系 决定了分布的判定基础,它定义两个要素之间是否存在相邻关系
- 属性信息 决定了空间分布的判定结果,它决定了最终样本之间的分布模式。
二、空间自相关
分布中的聚集和离散,可以通过相关来表达。
1.相关性
用于衡量两组变量之间的紧密程度。
相关性是一种基于向量的伴随关系,它虽然不代表直接的因果关系,但是是因果关系的一种可能性。
2.自相关的概念
自相关最早来自于时间序列分析——通常时间序列分析里面的数据,除去时序维度之外,只有一个属性维度。这种针对 同一属性 之间进行分析相关性的,就叫做“自相关”。
3.空间自相关
- 早期,自相关分析仅适用于时间序列这种有明确前后相邻的单一序列数据上面,最初被认为很难移植到空间上,因为空间上没有明确的可以遵循的单一顺序。
- 在引入 空间关系概念化 之后,研究人员采用特殊的符合地理空间规则的建模方法,才使之适用于广义的空间分析上面,称之为"空间自相关"。
- 空间自相关,就是通过探索和发现某种(潜在的)在空间关系下的相互依赖性。其是目前是揭示空间数据分布的最重要的概念和手段。
4.莫兰指数
最著名的空间自相关的指数
莫兰指数(Moran’s I) 计算的是要素之间的 空间间隔 以及 空间关系 的比值。其比值可以使用空间权重的调整进行改变。
I
=
n
∑
i
=
1
n
∑
j
=
1
n
w
i
j
∑
i
=
1
n
∑
j
=
1
n
w
i
j
(
y
i
−
y
ˉ
)
(
y
j
−
y
ˉ
)
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
I=\frac{n}{ {\textstyle \sum_{ {\textstyle }i=1 }^{n}} {\textstyle \sum_{j=1}^{n}}w_{ij} } \frac{ {\textstyle \sum_{i=1}^{n}} {\textstyle \sum_{j=1}^{n}} w_{ij}(y_i-\bar{y})(y_j-\bar{y})} { {\textstyle \sum_{i=1}^{n}(y_i-\bar{y})^2} }
I=∑i=1n∑j=1nwijn∑i=1n(yi−yˉ)2∑i=1n∑j=1nwij(yi−yˉ)(yj−yˉ)
其中
y
i
y_i
yi是对i个变量的观测值,
y
ˉ
\bar y
yˉ为样本均值,
w
i
j
w_{ij}
wij连接变量i与变量j之间的空间权重。
- 最终值的范围在-1与1之间,-1表示完全负相关(离散);1表示完全正相关(聚集)。0值表示值之间的空间格局是随机过程。
- 无论何时,空间自相关都要符合零假设。必须具备一定的显著性。
三、案例分析-中国经济空间分布与变化
还没有数据,目前没有上机操作分析,后续补发一个实验合集出来,这里先简单梳理一下思路。
1.案例背景
基本国策:先富带动后富、财政转移支付
七省五市支撑全中国:补充一点背景知识,点此跳转
2.数据
使用中国近年来个省份的GDP数据。
3.空间模式上的三种假设
假设有以下三种空间分布特征:
- 聚集
- 穷省紧邻穷省
- 富省紧邻富省
- 区域相似程度高
- 区域发展不均衡
- 随机
- 每个区域都出现穷省
- 和富省的概率相等
- 分布特征不可预测
- 区域发展均衡
- 离散
- 穷省旁边都是富省
- 富省旁边都是穷省
- 区域化相异程度高
- 区域发展不均衡
4.选择空间关系
以行政区划为单位的数据,尽量不要选择距离相关关系。应当选择公共点或公共边的邻接关系。
5.空间模式趋势变化的解读
5.1.聚集
聚集度上升:
- 莫兰正向指数增大
- 区域带动效益增强
- 具有相互促进效益
- 区域均衡程度下降
聚集度下降:
- 莫兰指数正向减少
- 越接近0,均衡程度越高
- 发展情况空间关联特性降低
5.2离散
离散度上升:
- 莫兰负向指数增大
- 区域竞争效应增强
- 资源虹吸效益增强
- 具有相互抵消效益
- 区域均衡程度下降
离散度下降: - 莫兰指数负向指数减少
- 越接近0,均衡程度越高
- 发展情况空间关联特性降低
计算出每一年的莫兰指数后, 可以将所有莫兰指数 绘制成一张折线图。结合政策,对趋势进行解读。