主要从普通的相关性和空间的自相关性分析。普通的相关性如变量之间的相关性,特别是目标变量与因子变量之间的相关性分析,本身也是预处理中特征选择的重要方法;而空间的相关性分析则分析则相关性,其中空间关联是其显著的特点;时间序列之间也存在空间相关性,对其进行探索性分析可考察空间数据(栅格)的时间联动性。
1普通相关性分析
就是分析变量之间的相关性,包括以下5个方面
1. Pearson相关系数探索连续变量相关性
Pearson相关性系数是最基本的相关系数,它考查两个事物之间的关联程度,也就是说,当一个变量发生变化时,另一个变量会产生什么变化。
2. Spearman和Kendall’s tau-b 相关系数探索离散变量关联性
Spearman和Kendall相关系数指出,当分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值进行排秩。
3. 散点图分析
散点图相当于一种相关性分析,每个坐标代表一个变量,做出数据表格中每个记录的点对,构成了不同维数的散点图,两个变量构成二维散点图,三个变量构成三维散点图。如果变量之间具有一定的关联性,那么图呈现一定的模式(如线形模式),而杂乱无规律可循的散点图则表明变量之间没有相关性。也可以对变量进行变换后做其散点图,如进行指数、对数、平方根或核函数变换后再做散点图,挖掘其隐藏的模式。
4. 条件直方图分析
直方图是最常见的简单探索性方法,条件直方图是探索因子变量与不同取值的bin中目标分类的频度 若分类频度咋每个Bin中差异不大,则说明相关性不强,该自变量对目标变量的影响贡献不大;若差异较大,则说明值变量对目标有影响,具有一定的相关性。
5. 三维插值曲线图分析
三维插值曲线图是将两个自变量作为X和Y坐标,因变量为Z坐标,采用一定的插值方法,根据一些离散的样本点作出X与Y相对Z的曲面。这种方法可以探索X与Y一起对Z 的影响;当然,也可以对X、Y与Z采用类似散点图分析中所提到的对变量变换作图,挖掘隐藏模式。
2空间自相关集聚集性
(spatial autocorrelation)不同于普通的相关性,它是研究地理空间中某空间单元与其周围单元间的关系,采用统计方法对可见自相关性程度进行计算,以分析这些空间单元在空间上分布的特点。因此,空间自相关是以空间上的相邻为基本性质。
时间上和空间上的相关性是自然界存在的秩序、格局和多样性的根本原因之一。空间自相关性的存在使得传统的统计学方法不宜用来研究空间特征。空间统计学的目的是描述事物在空间上的分布特征(如随机的、聚集的或者有规则的),以及确定空间自相关关系是是否对这些格局有重要影响。
计算空间自相关的方法有多种,最为知名且最常用的有Moran’s I 、Geary’s C 、Getis G等,这些方法各有其功用,同时亦有其适用范围与限制,当然也各有其优缺点。
一般来说,方法在功用上课大致分为两类,一类为全局型空间自相关,另一类,则为区域型空间自相关。
3时间序列相关性
根据绘制的自相关分析图和偏自相关分析图,可以初步地识别平稳序列的模型类型和模型阶数。此外,利用自相关分析法还可以测定时间序列的随机性和平稳性,以及时间序列的季节性。
自相关函数
滞后期为
k
的自协方差函数为
则 yt 的自相关函数为
式中, σ2yt=E[yt−E(Yt)]2
当序列平稳时,自相关函数可写为
样本自相关函数为
式中, y¯=∑nt=1ytn
样本自相关函数的取值范围在-1到1之间,它可以说明不同时期数据之间的相关程度,值越接近于1,说明时间序列的自相关程度越高。
偏自相关函数
样本的偏自相关函数为
式中, ϕ^k,j=ϕ^k−1,j−ϕ^kkϕ^k−1,k−j 。
时间序列的随机性是指时间序列各项之间没有相关关系的特征。