前言
这几天有幸结识到了一位专家,沟通的过程中学习到了一些新的方向,今天专家提供了一些论文,大部分都是GIS相关的,GIS的话以前就了解过,不过一直处于很模糊的认知,把所有论文都看完之后深感自己才学疏浅,为后期更好地沟通和交流,特意将空间统计学相关的理论和知识学了一遍,给自己加强印象的同时,也为后续项目参与人员提供一点帮助。
东西写的比较碎,本文目的主要是帮助了解概念,深入的话有很多资料,一起学习吧!
GIS
先了解一下 GIS (Geographic Information System)是什么:
地理信息系统(GIS)是20世纪60年代中期发展起来的新技术,是对地球表面空间信息进行采集、处理、存储、查询、分析和显示的计算机系统,是以计算机图形图像处理、数据库技术、测绘遥感技术及现代数学研究方法为基础,集空间数据和属性数据于一体的综合空间信息系统。由于其在空间信息管理和分析方面的独特优势,在环境科学、人文科学、法学、电气工程等领域得到广泛应用。自20世纪80年代以来,地理信息系统逐渐在旅游研究领域出现。GIS在旅游研究中的应用领域主要包括:旅游空间结构研究、旅游规划与开发研究、生态旅游规划与评价、其他领域的应用研究等方面。
讲到这里,也应该提一下LBS(Location Based Services),基于位置服务,我理解的LBS与GIS关系:
一个经纬度坐标(LBS)只有置于特定的地理信息(GIS)中,代表为某个地点、标识、方位后,有其实际现实属性后,才会被用户认识和理解。
基于空间的散点分布图
基于空间的热力图
空间统计
我们从上面那两张图能发现,都是基于空间地理的数据分布,有了数据分布就会产生空间统计,GIS中有很多做空间统计的方法,以下仅列举部分论文中提到比较多的理论和知识:
Moran’s I (莫兰指数)
一般说来,莫兰指数分为全局莫兰指数(GlobalMoran’s I)和安瑟伦局部莫兰指数(AnselinLocal Moran’s
I)后者是美国亚利桑那州立大学地理与规划学院院长Luc Anselin教授在1995年提出的。
今天主要记录一下狭义上的莫兰指数,即全局莫兰指数 Global Moran’s I:
莫兰指数是一个有理数,经过方差归一化之后,它的值会被归一化到-1.0——1.0之间。
这张图基于 ArcGIS 的帮助文档,ArcGIS是一个成熟且全面的GIS服务平台,明后天我就打算上手玩玩。
一开始看到论文里关于 I 值的计算时,是一脸懵的,晚上又回来仔细分析了一下公式,理解到了为什么这个公司可以表述空间上的关系,其中 Wi,j,这个其实用矩阵的方式思维去理解会比较好,简单画了个3阶矩阵,将其理解到九宫格中表地理位置,两个地理位置互相形成的权重W,将二者形成关系。
全局莫兰指数计算完成之后,全部的要素,就会给出你一个关于全部数据的相关性的数值(反之,局部莫兰指数,就每个要素都会给你一个相关性数值)。所以我们可以根据他给出的值,来看当前你需要计算的数据结果了。
Moran’s I >0表示空间正相关性,其值越大,空间相关性越明显,Moran’s I
<0表示空间负相关性,其值越小,空间差异越大,否则,Moran’s I = 0,空间呈随机性。
所谓的相关,就是指相互关系,正相关,就是随着自变量的增长,应变量也随着增长
P值 & Z得分
p值(P-Value,Probability,Pr),代表的是概率。它是反映某一事件发生的可能性大小。
在空间相关性的分析中,p值表示所观测到的空间模式是由某一随机过程创建而成的概率。比如说p=1,那就表示用于计算的这份数据,100%是随机生成的了(当然,不可能是1的,0.5以上就也不得了)。如果是0.1,就表示只有10%的可能性是随机生成的结果。z得分(Zscores)表示标准差的倍数(standarddeviations)
标准差:总体各单位标准值与其平均数离差平方的算术平均数的平方根
那么z得分,就是标准差的倍数(有正负之分),比如z得分是+2.5,就表示你的数据计算出来,得到的结果是标准差的正2.5倍。反之,如果你算出来的是-2.5,那么就表示你的结果是标准差的负2.5倍。
P值和Z得分,一般都是一起出现的,如下图所示:
在正态分布的两端出现非常高或非常低(负值)的 z 得分,这些得分与非常小的 p 值关联。当得到很小的 p 值以及非常高或非常低的 z 得分时,就表明观测到的空间模式不太可能反映零假设 (CSR) 所表示的理论上的随机模式。
零假设
在统计学中,零假设(虚无假设)是做统计检验时的一类假设。零假设的内容一般是希望证明其错误的假设。比如说,在相关性检验中,一般会取“两者之间没有关联”作为零假设,而在独立性检验中,一般会取“两者之间有关联”作为零假设。与零假设相对的是备择假设(对立假设),即不希望看到的另一种可能。从数学上来看,零假设和备择假设的地位是相等的,但是在统计学的实际运用中,常常需要强调一类假设为应当或期望实现的假设。如果一个统计检验的结果拒绝零假设(结论不支持零假设),而实际上真实的情况属于零假设,那么称这个检验犯了第一类错误。反之,如果检验结果支持零假设,而实际上真实的情况属于备择假设,那么称这个检验犯了第二类错误。通常的做法是,在保持第一类错误出现的机会在某个特定水平上的时候,尽量减少第二类错误出现的概率。
如果你的真实结果偏离了你设定的区间,就表示发生了小概率事件。这样你原来的假设就不成立了。
如果你的计算结果落在-2到2之间,就表示你的假设是可以接受得,但是不在这个范围内,就说明消息小概率事件了。既然有小概率事件,就说明两种可能:1,你的假设有错误;2,出现了异常值。
空间差异 & 空间异质性
空间差异(spatialdisparity)是指不同地域范畴因为(社会、经济等)发展水平及其结构不同,而产生的差异。
而空间异质性(spatialheterogeneity)是指因为空间位置的不同而引发的获取到不同的数据。