GIS及空间统计相关基础整理【持续整理中】

最新推荐文章于 2024-10-17 21:55:26 发布

待鸣

最新推荐文章于 2024-10-17 21:55:26 发布

阅读量1.8k

点赞数 3

分类专栏：机器学习文章标签： GIS 空间统计莫兰指数零假设 P值Z得分

本文链接：https://blog.csdn.net/oZuoYu123/article/details/107499677

版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

前言

这几天有幸结识到了一位专家，沟通的过程中学习到了一些新的方向，今天专家提供了一些论文，大部分都是GIS相关的，GIS的话以前就了解过，不过一直处于很模糊的认知，把所有论文都看完之后深感自己才学疏浅，为后期更好地沟通和交流，特意将空间统计学相关的理论和知识学了一遍，给自己加强印象的同时，也为后续项目参与人员提供一点帮助。
东西写的比较碎，本文目的主要是帮助了解概念，深入的话有很多资料，一起学习吧！

GIS

先了解一下 GIS （Geographic Information System）是什么：

地理信息系统（GIS）是20世纪60年代中期发展起来的新技术，是对地球表面空间信息进行采集、处理、存储、查询、分析和显示的计算机系统，是以计算机图形图像处理、数据库技术、测绘遥感技术及现代数学研究方法为基础，集空间数据和属性数据于一体的综合空间信息系统。由于其在空间信息管理和分析方面的独特优势，在环境科学、人文科学、法学、电气工程等领域得到广泛应用。自20世纪80年代以来，地理信息系统逐渐在旅游研究领域出现。GIS在旅游研究中的应用领域主要包括：旅游空间结构研究、旅游规划与开发研究、生态旅游规划与评价、其他领域的应用研究等方面。

讲到这里，也应该提一下LBS（Location Based Services），基于位置服务，我理解的LBS与GIS关系：
一个经纬度坐标（LBS）只有置于特定的地理信息（GIS）中，代表为某个地点、标识、方位后，有其实际现实属性后，才会被用户认识和理解。

基于空间的散点分布图
在这里插入图片描述
基于空间的热力图

空间统计

我们从上面那两张图能发现，都是基于空间地理的数据分布，有了数据分布就会产生空间统计，GIS中有很多做空间统计的方法，以下仅列举部分论文中提到比较多的理论和知识：

Moran’s I (莫兰指数)

一般说来，莫兰指数分为全局莫兰指数（GlobalMoran’s I）和安瑟伦局部莫兰指数（AnselinLocal Moran’s
I）后者是美国亚利桑那州立大学地理与规划学院院长Luc Anselin教授在1995年提出的。

今天主要记录一下狭义上的莫兰指数，即全局莫兰指数 Global Moran’s I：
莫兰指数是一个有理数，经过方差归一化之后，它的值会被归一化到-1.0——1.0之间。
这张图基于 ArcGIS 的帮助文档，ArcGIS是一个成熟且全面的GIS服务平台，明后天我就打算上手玩玩。
在这里插入图片描述
一开始看到论文里关于 I 值的计算时，是一脸懵的，晚上又回来仔细分析了一下公式，理解到了为什么这个公司可以表述空间上的关系，其中 W_i,j，这个其实用矩阵的方式思维去理解会比较好，简单画了个3阶矩阵，将其理解到九宫格中表地理位置，两个地理位置互相形成的权重W，将二者形成关系。
在这里插入图片描述
全局莫兰指数计算完成之后，全部的要素，就会给出你一个关于全部数据的相关性的数值（反之，局部莫兰指数，就每个要素都会给你一个相关性数值）。所以我们可以根据他给出的值，来看当前你需要计算的数据结果了。

Moran’s I >0表示空间正相关性，其值越大，空间相关性越明显，Moran’s I
<0表示空间负相关性，其值越小，空间差异越大，否则，Moran’s I = 0，空间呈随机性。
所谓的相关，就是指相互关系，正相关，就是随着自变量的增长，应变量也随着增长

P值 & Z得分

什么是 z 得分？什么是 p 值

p值（P-Value，Probability，Pr），代表的是概率。它是反映某一事件发生的可能性大小。
在空间相关性的分析中，p值表示所观测到的空间模式是由某一随机过程创建而成的概率。比如说p=1，那就表示用于计算的这份数据，100%是随机生成的了（当然，不可能是1的，0.5以上就也不得了）。如果是0.1，就表示只有10%的可能性是随机生成的结果。

z得分（Zscores）表示标准差的倍数（standarddeviations）
标准差：总体各单位标准值与其平均数离差平方的算术平均数的平方根
那么z得分，就是标准差的倍数（有正负之分），比如z得分是+2.5，就表示你的数据计算出来，得到的结果是标准差的正2.5倍。反之，如果你算出来的是-2.5,那么就表示你的结果是标准差的负2.5倍。

P值和Z得分，一般都是一起出现的，如下图所示：

在这里插入图片描述

在正态分布的两端出现非常高或非常低（负值）的 z 得分，这些得分与非常小的 p 值关联。当得到很小的 p 值以及非常高或非常低的 z 得分时，就表明观测到的空间模式不太可能反映零假设 (CSR) 所表示的理论上的随机模式。

零假设

在统计学中，零假设（虚无假设）是做统计检验时的一类假设。零假设的内容一般是希望证明其错误的假设。比如说，在相关性检验中，一般会取“两者之间没有关联”作为零假设，而在独立性检验中，一般会取“两者之间有关联”作为零假设。与零假设相对的是备择假设（对立假设），即不希望看到的另一种可能。从数学上来看，零假设和备择假设的地位是相等的，但是在统计学的实际运用中，常常需要强调一类假设为应当或期望实现的假设。如果一个统计检验的结果拒绝零假设（结论不支持零假设），而实际上真实的情况属于零假设，那么称这个检验犯了第一类错误。反之，如果检验结果支持零假设，而实际上真实的情况属于备择假设，那么称这个检验犯了第二类错误。通常的做法是，在保持第一类错误出现的机会在某个特定水平上的时候，尽量减少第二类错误出现的概率。

如果你的真实结果偏离了你设定的区间，就表示发生了小概率事件。这样你原来的假设就不成立了。
如果你的计算结果落在-2到2之间，就表示你的假设是可以接受得，但是不在这个范围内，就说明消息小概率事件了。既然有小概率事件，就说明两种可能：1，你的假设有错误；2，出现了异常值。
在这里插入图片描述