【地理空间数据挖掘】相关性分析

主要从普通的相关性和空间的自相关性分析。普通的相关性如变量之间的相关性,特别是目标变量与因子变量之间的相关性分析,本身也是预处理中特征选择的重要方法;而空间的相关性分析则分析则相关性,其中空间关联是其显著的特点;时间序列之间也存在空间相关性,对其进行探索性分析可考察空间数据(栅格)的时间联动性。

1普通相关性分析

就是分析变量之间的相关性,包括以下5个方面
1. Pearson相关系数探索连续变量相关性
Pearson相关性系数是最基本的相关系数,它考查两个事物之间的关联程度,也就是说,当一个变量发生变化时,另一个变量会产生什么变化。
2. Spearman和Kendall’s tau-b 相关系数探索离散变量关联性
Spearman和Kendall相关系数指出,当分类变量的数据或变量值的分布明显非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值进行排秩。
3. 散点图分析
散点图相当于一种相关性分析,每个坐标代表一个变量,做出数据表格中每个记录的点对,构成了不同维数的散点图,两个变量构成二维散点图,三个变量构成三维散点图。如果变量之间具有一定的关联性,那么图呈现一定的模式(如线形模式),而杂乱无规律可循的散点图则表明变量之间没有相关性。也可以对变量进行变换后做其散点图,如进行指数、对数、平方根或核函数变换后再做散点图,挖掘其隐藏的模式。
4. 条件直方图分析
直方图是最常见的简单探索性方法,条件直方图是探索因子变量与不同取值的bin中目标分类的频度 若分类频度咋每个Bin中差异不大,则说明相关性不强,该自变量对目标变量的影响贡献不大;若差异较大,则说明值变量对目标有影响,具有一定的相关性。
5. 三维插值曲线图分析
三维插值曲线图是将两个自变量作为X和Y坐标,因变量为Z坐标,采用一定的插值方法,根据一些离散的样本点作出X与Y相对Z的曲面。这种方法可以探索X与Y一起对Z 的影响;当然,也可以对X、Y与Z采用类似散点图分析中所提到的对变量变换作图,挖掘隐藏模式。

2空间自相关集聚集性

(spatial autocorrelation)不同于普通的相关性,它是研究地理空间中某空间单元与其周围单元间的关系,采用统计方法对可见自相关性程度进行计算,以分析这些空间单元在空间上分布的特点。因此,空间自相关是以空间上的相邻为基本性质。

时间上和空间上的相关性是自然界存在的秩序、格局和多样性的根本原因之一。空间自相关性的存在使得传统的统计学方法不宜用来研究空间特征。空间统计学的目的是描述事物在空间上的分布特征(如随机的、聚集的或者有规则的),以及确定空间自相关关系是是否对这些格局有重要影响。
计算空间自相关的方法有多种,最为知名且最常用的有Moran’s I 、Geary’s C 、Getis G等,这些方法各有其功用,同时亦有其适用范围与限制,当然也各有其优缺点。

一般来说,方法在功用上课大致分为两类,一类为全局型空间自相关,另一类,则为区域型空间自相关。

3时间序列相关性

根据绘制的自相关分析图和偏自相关分析图,可以初步地识别平稳序列的模型类型和模型阶数。此外,利用自相关分析法还可以测定时间序列的随机性和平稳性,以及时间序列的季节性。

自相关函数
滞后期为 k 的自协方差函数为

rk=cov(ytytk)

yt 的自相关函数为

ρk=rkσytkσyt

式中, σ2yt=E[ytE(Yt)]2
当序列平稳时,自相关函数可写为
ρk=rkr0

样本自相关函数为
ρ^k=nkt=1(yty¯)((yt+ky¯)nt=1(yty¯)

式中, y¯=nt=1ytn
样本自相关函数的取值范围在-1到1之间,它可以说明不同时期数据之间的相关程度,值越接近于1,说明时间序列的自相关程度越高。

偏自相关函数
样本的偏自相关函数为

ϕ^kk=ρ^1,ρ^kk1j=1ρ^k1,ρ^kj1k1j=1ϕ^k1,ρ^kj,k-1k=2,3,...

式中, ϕ^k,j=ϕ^k1,jϕ^kkϕ^k1,kj
时间序列的随机性是指时间序列各项之间没有相关关系的特征。

  • 10
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘与分析PDF是一种将数据挖掘与数据分析技术应用于PDF文档的过程。数据挖掘是从大量数据中发现隐藏模式、关系和趋势的过程,而数据分析是对数据进行解释、理解和推断的过程。 数据挖掘与分析PDF不仅可以帮助我们从PDF文档中提取和理解有用的信息,还可以帮助我们发现文档中可能存在的问题、趋势和关联。通过数据挖掘和分析,我们可以对PDF文档进行有针对性的搜索、分类和聚类,从而实现对文档的快速和准确的分析和管理。 数据挖掘与分析PDF常用的技术包括文本挖掘、关联规则挖掘、聚类分析和分类分析。文本挖掘可以帮助我们从文档中提取关键词、主题和情感信息,以便更好地理解文档内容。关联规则挖掘可以揭示文档中的相关性和依赖关系,帮助我们发现一些隐藏的模式和规律。聚类分析可以将文档按照相似性进行分组,从而更好地组织和检索文档。分类分析可以通过训练模型来对文档进行分类,帮助我们更快地找到需要的信息。 数据挖掘与分析PDF在很多领域都有应用,包括文本分析、情报分析、商业智能和文档管理等。它可以帮助我们更好地理解和利用PDF文档中的信息,提高工作效率和决策能力。但是,数据挖掘与分析PDF也面临一些挑战,如数据的质量问题、算法的选择和模型的构建等,需要我们不断地探索和改进。 总而言之,数据挖掘与分析PDF是一种将数据挖掘和分析技术应用于PDF文档的过程,可以帮助我们发现文档中的隐藏模式和关联性,提高文档的管理和利用效率,但也需要我们解决一些挑战,提高技术的准确性和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值