【地理空间数据挖掘】相关性分析

最新推荐文章于 2024-01-16 15:20:51 发布

Evan_Gu

最新推荐文章于 2024-01-16 15:20:51 发布

阅读量8.1k

点赞数 10

分类专栏：综合

本文链接：https://blog.csdn.net/gdp12315_gu/article/details/47109367

版权

综合专栏收录该内容

114 篇文章 2 订阅

订阅专栏

主要从普通的相关性和空间的自相关性分析。普通的相关性如变量之间的相关性，特别是目标变量与因子变量之间的相关性分析，本身也是预处理中特征选择的重要方法；而空间的相关性分析则分析则相关性，其中空间关联是其显著的特点；时间序列之间也存在空间相关性，对其进行探索性分析可考察空间数据（栅格）的时间联动性。

1普通相关性分析

就是分析变量之间的相关性，包括以下5个方面
1. Pearson相关系数探索连续变量相关性
Pearson相关性系数是最基本的相关系数，它考查两个事物之间的关联程度，也就是说，当一个变量发生变化时，另一个变量会产生什么变化。
2. Spearman和Kendall’s tau-b 相关系数探索离散变量关联性
Spearman和Kendall相关系数指出，当分类变量的数据或变量值的分布明显非正态或分布不明时，计算时先对离散数据进行排序或对定距变量值进行排秩。
3. 散点图分析
散点图相当于一种相关性分析，每个坐标代表一个变量，做出数据表格中每个记录的点对，构成了不同维数的散点图，两个变量构成二维散点图，三个变量构成三维散点图。如果变量之间具有一定的关联性，那么图呈现一定的模式（如线形模式），而杂乱无规律可循的散点图则表明变量之间没有相关性。也可以对变量进行变换后做其散点图，如进行指数、对数、平方根或核函数变换后再做散点图，挖掘其隐藏的模式。
4. 条件直方图分析
直方图是最常见的简单探索性方法，条件直方图是探索因子变量与不同取值的bin中目标分类的频度若分类频度咋每个Bin中差异不大，则说明相关性不强，该自变量对目标变量的影响贡献不大；若差异较大，则说明值变量对目标有影响，具有一定的相关性。
5. 三维插值曲线图分析
三维插值曲线图是将两个自变量作为X和Y坐标，因变量为Z坐标，采用一定的插值方法，根据一些离散的样本点作出X与Y相对Z的曲面。这种方法可以探索X与Y一起对Z 的影响；当然，也可以对X、Y与Z采用类似散点图分析中所提到的对变量变换作图，挖掘隐藏模式。

2空间自相关集聚集性

（spatial autocorrelation）不同于普通的相关性，它是研究地理空间中某空间单元与其周围单元间的关系，采用统计方法对可见自相关性程度进行计算，以分析这些空间单元在空间上分布的特点。因此，空间自相关是以空间上的相邻为基本性质。

时间上和空间上的相关性是自然界存在的秩序、格局和多样性的根本原因之一。空间自相关性的存在使得传统的统计学方法不宜用来研究空间特征。空间统计学的目的是描述事物在空间上的分布特征（如随机的、聚集的或者有规则的），以及确定空间自相关关系是是否对这些格局有重要影响。
计算空间自相关的方法有多种，最为知名且最常用的有Moran’s I 、Geary’s C 、Getis G等，这些方法各有其功用，同时亦有其适用范围与限制，当然也各有其优缺点。

一般来说，方法在功用上课大致分为两类，一类为全局型空间自相关，另一类，则为区域型空间自相关。

3时间序列相关性

根据绘制的自相关分析图和偏自相关分析图，可以初步地识别平稳序列的模型类型和模型阶数。此外，利用自相关分析法还可以测定时间序列的随机性和平稳性，以及时间序列的季节性。

自相关函数
滞后期为 $k$ 的自协方差函数为

r k = c o v (y t - y t - k)

$r_k = cov(y_t-y_{t-k})$
则

yt $y_t$ 的自相关函数为

ρ k = r k σ y t - k σ y t

$\rho_k = \frac {r_k}{\sigma_{y_{t-k}}\sigma_{y_t}}$
式中，

σ2yt=E[yt−E(Yt)]2 $\sigma_{y_t}^2 = E[y_t-E(Y_t)]^2$
当序列平稳时，自相关函数可写为

ρ k = r k r 0

$\rho_k = \frac{r_k}{r_0}$
样本自相关函数为

ρ^k = \sum n - k t = 1 ( y t - y ¯ ) ( ( y t + k - y ¯ ) \sum n t = 1 ( y t - y ¯ )

$\hat\rho_k = \frac{\sum_{t=1}^{n-k} (y_t-\bar y)((y_{t+k}-\bar y)} {\sum_{t=1}^n (y_t-\bar y)}$
式中，

y¯=∑nt=1ytn $\bar y = \sum_{t=1}^n \frac{y_t}{n}$
样本自相关函数的取值范围在-1到1之间，它可以说明不同时期数据之间的相关程度，值越接近于1，说明时间序列的自相关程度越高。

偏自相关函数
样本的偏自相关函数为

ϕ^k k = ⎧ ⎩ ⎨ ρ^1, ρ ^ k - \sum k - 1 j = 1 ρ ^ k - 1 , ρ ^ k - j 1 - \sum k - 1 j = 1 ϕ ^ k - 1 , ρ ^ k - j, k-1 k=2,3,...

$\hat \phi_{kk} = \begin{cases} \hat \rho_1, & \text{k-1} \\ \frac {\hat \rho_k - \sum_{j=1}^{k-1}{\hat \rho_{k-1},\hat \rho_{k-j}} }{1-\sum_{j=1}^{k-1}{\hat \phi_{k-1},\hat \rho_{k-j}}} , & \text{k=2,3,...} \end{cases}$
式中，

ϕ^k,j=ϕ^k−1,j−ϕ^kkϕ^k−1,k−j $\hat \phi_{k,j}=\hat \phi_{k-1,j} - \hat \phi_{kk}\hat \phi_{k-1,k-j}$ 。
时间序列的随机性是指时间序列各项之间没有相关关系的特征。

Evan_Gu

关注

10
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
【地理空间数据挖掘】相关性分析

主要从普通的相关性和空间的自相关性分析。普通的相关性如变量之间的相关性，特别是目标变量与因子变量之间的相关性分析，本身也是预处理中特征选择的重要方法；而空间的相关性分析则分析则相关性，其中空间关联是其显著的特点；时间序列之间也存在空间相关性，对其进行探索性分析可考察空间数据（栅格）的时间联动性。1普通相关性分析就是分析变量之间的相关性，包括以下5个方面 1. Pearson相关系数探索连续变量相关
复制链接

扫一扫

专栏目录