白话空间统计十八:相关性分析

本文探讨了相关性分析在交通数据中的应用,详细介绍了相关性分析的概念、计算方法及检验过程,并通过实际数据集展示了分析结果,揭示了交通流量、运行车辆数与平均时速之间的关系。

其实这一章开始想放到了番外篇里面。因为相关性分析是经典统计学里面最基础也是最重要的分析方法之一。题目还是取了个白话空间统计,所以总是有点怪怪的。

 

不过空间统计要是完全脱离经典统计学去谈,那就真是坠入魔道了……计量革命最主要的成果之一,就是促成了经典统计分析方法在地理学研究中的应用。直到今天,经典统计学还是计量地理学中最常用的手段。可以说,空间统计学仍然是在经典统计学理论上建立和发展起来的。

 

在讲相关性分析之前,还是先要检讨一下,前面说了那么多空间相关性,而啥叫相关性分析,今天才写……就像我上面说的,坠入魔道了,把空间统计和经典统计分开在谈,确实是不应该的。以后凡是有这类的内容,我就不解释到底谁是严格的“空间统计学”或者是严格的“经典统计学”里面的内容了,正如下面的这句话:(图片内容来自《那年那兔那些事儿》版权归作者麻蛇,此次仅为引用)

 


 

那么什么叫做相关性分析呢?相关性分析的任务,主要是建议两个东西之间相互关系的紧密程度,如下图所示:


 

通过数学公式,可以计算出这个相关系数,相关系数的值一般都在【-1,1】之间,情况如下:


 

关于计算相关系数的公式,大家自己百度一下就行,以免有数学恐惧症的同学抓狂……

 

我们现在用最强大R语言,来对一下数据进行一下相关系数计算:


上面这个表,一下位置(格网编号2317)的当天24小时的出租车车流量与车速统计数据,如下:


 

上面有5个数据,我们依次用这五个数据,来计算一下相关性,相关性矩阵计算如下(因为是无向图,所以就不填入了重复的数据了):


 

从上面的五个变量计算出来的相关性,可以看见,相关性最高的是总体车流量数与运行中的车辆数,而且是正相关,说明了如果这个格子里面的总体车辆数非常多的话,那么在运行中的出租车数量也相应增多。

 

第二高的是运行中的车辆数与整个格网中的平均时速,但是是负相关,也就说明了,如果运行中的车多,那么时速就会相应的降低。

 

当要素之间的相关系数计算出来之后,还需要对求出来的数据进行一下检验。为什么要检验呢,因为我们的相关系数是通过这些数据样本值计算出来的,样本数量的多少或者取值方式的不同,也会导致我们算出来的相关系数不同,一般来说,检验相关系数,都是通过相关系数检验表来计算的,如下:

 


上面这个就是相关系数检验表,一般大于这个表里面表示的值,我们就认为是相关性显著了,这个表在网上有下载,大家可以百度一下就搜索到了。

 

如何读取这个表呢,我们逐个来解释:

首先看自由度,自由度就是指你受约束的程度,我们都知道,受约束的情况,是随着条件越多,自由就越少,这里的自由度也是一样的,自由度数值越大,表示约束越多。

自由度的计算,一般是n-m-1n表示你的样本数量,我们这里的样本数量是24个,m是因子数(m元回归),我们这里用一个值对比一个值,所以就是一元回归,所以我们的自由度 = 24 -1-1 = 22

 

上面那个0.10.050.01就是置信度,关于置信度的问题,请查看前面的“白话空间统计十三:零假设”,懒得查看的,看下面图片复习一下:


 

然后,我们用这个表里面的显著性,来对比一下我们的相似性矩阵,如下:


从以上表可以看出,只有4个条件有显著相关性,而如果我们将置信度区间设为95%的,就剩下三个了。

 

最后题外话:最后两个条件,也就是总体车辆与运行车辆正相关,运行车辆与平均时速负相关,是在没计算之前,就基本上猜到了,这就是常识嘛。但是在东直门这个交通枢纽上,时间与总体的车流量居然95%的置信度区间内显示出了显著正相关,确实我没有想到的。

 

当然,如果换一个区域计算,可能又有不同了,以后有机会,虾神会对不同时间不同研究区域的数据,都作一个相关分析,看看北京市交通到底会有一些什么好玩的表现出现,当然,大家有兴趣的,也可以做一下。

### 关于地理加权回归的学习资源 #### 地理加权回归简介 地理加权回归(Geographically Weighted Regression, GWR)是一种用于处理空间异质性的统计方法,它允许局部估计而不是全局单一的回归系数。这种方法特别适用于研究那些随地理位置而变化的关系模式。 #### 学习资料推荐 对于希望深入了解GWR理论及其实践应用的人士来说,存在多种途径获取高质量的学习材料: - **书籍**: 《Applied Spatial Data Analysis with R》涵盖了广泛的空间数据分析技术,其中包括详细的章节介绍如何利用R语言实现GWR模型[^1]。 - **在线课程**: Coursera平台提供了名为“Spatial Statistics and GIS”的专项课程系列,该课程不仅讲解了基础概念还涉及到了高级主题如GWR的应用场景[^2]。 - **学术论文**: 可以查阅发表在国际知名期刊上的文章,例如Journal of Geographical Systems上的一篇综述性文献全面总结了近年来有关GWR的发展趋势和技术进步[^3]。 #### 实际操作指南 为了帮助初学者更好地掌握这一技能,在实际项目中运用所学知识至关重要。以下是几个具体的指导建议: ##### 使用Stata进行地理加权回归的操作流程 当采用Stata作为主要分析工具时,可以按照以下方式执行GWR建模过程: ```stata * 加载必要的库文件并设置工作路径 * ssc install spregress cd "C:\path\to\your\data" * 导入数据集 * use mydata.dta, clear * 执行地理加权回归命令 * spregress y x1 x2 ..., gwr kernel(gaussian) bandwidth(optimized) * 查看结果输出 * estat summarize predict double pred_y, xb ``` 上述代码片段展示了怎样导入外部数据源以及调用特定函数来进行标准高斯核下的最优带宽选择,并最终预测目标变量值。 ##### Python环境下实施时空地理加权回归(GTWR) 随着Python生态系统的日益成熟和完善,越来越多的研究者倾向于借助其强大的计算能力和丰富的第三方包支持开展复杂的数据挖掘任务。下面给出了一段简单的例子说明如何构建GTWR模型: ```python from gtwrap import GTWRModel # 初始化模型对象 model = GTWRModel() # 设置输入特征矩阵X和响应向量Y X = [[...], [...]] # 替换为实际坐标位置和其他协变量组成的列表 Y = [...] # 响应变量对应的观测值序列 # 训练模型 model.fit(X, Y) # 获取拟合后的参数估计 params = model.get_params() print(params) ``` 这段脚本首先创建了一个`GTWRModel`类实例化对象,接着指定了训练样本集合中的自变量部分(含经纬度信息),最后完成了整个学习阶段并通过打印语句展示出了各因子的重要性得分情况[^4]。 #### 应用案例分享 一个典型的应用领域是在城市规划方面——评估房价波动因素的影响程度差异。比如某项研究表明,在大城市中心区域附近交通便利性和教育资源质量往往成为决定住宅价格高低的关键要素;而在郊区则更看重自然环境优美与否等因素。通过建立相应的GWR模型可以帮助政府决策部门更加精准地制定土地开发政策和服务设施布局方案。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

虾神说D

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值