上一篇,介绍了时空立方体的创建与可视化
这篇讲时空热点分析。
操作平台:arcgis pro
PART/
01
量化空间聚类
Pro中提供了聚类分析系列的工具来识别具有统计显著性的热点、冷点和空间异常值以及类似要素或区域的位置。聚类分析系列能够解决:频繁出现的入室盗窃案,是否存在聚类,是否需要分配更多的警力;或者定位疾病爆发的地点从而找到传染源的线索。
与分析模式工具集只回答是否存在空间聚类不同,聚类分析系列工具可以直观呈现聚类位置和范围,也就是量化空间聚类。这一系列工具回答了以下问题:“聚类(热点和冷点)在哪里?”、“事件最密集的地方在哪里?”、“空间异常值在哪里?”、“哪些要素最相似?”、“如何对要素进行分组,以便每个组最不相似?”或者“如何组合这些要素,使每个区域都是同类的?”等等问题。
聚类分析系列工具最典型的就是热点分析以及聚类和异常值分析工具。热点分析可以识别具有统计显著性的热点和冷点,聚类和异常值分析工具也就是Anselin Local Moran's I则用来识别具有统计显著性的热点、冷点和空间异常值。也就是我们常说的高高、高低、低高、低低聚类。关于这两个工具,我们就不在这篇文章中具体展开了,对原理感兴趣的同学可以参考虾神白话空间统计中关于热点分析和聚类和异常值分析部分。
这里我们摘一个截图表示热点分析与聚类和异常值分析(局部莫兰指数)两个工具的区别。从结果来说热点分析最终显示每个要素的空间聚类情况,属于热点还是冷点,通过P值和Z得分来判断;聚类和异常值分析则会明确给出HH\LL的聚类结果以及HL\LH的异常值结果。
热点分析和聚类和异常值分析区别
我们这篇文章主要讨论数据带有时间属性时,如何去量化空间聚类,也就是针对时空立方体类型的数据如何去做热点分析以及聚类和异常值分析。
PART/
02
新兴时空热点分析
新兴时空热点分析工具用于确定时空立方体的计数或汇总字段的聚类趋势。
新兴时空热点分析示意
1. 实现原理
它的实现原理大致如下:
首先对单个条柱以及条柱的时空邻域计算平均值(局部平均值),再与全局平均值进行比较,进行热点分析(Getis-Ord Gi*方法),得出每个条柱的Z得分和P值,判断其为显著统计学意义的热点或冷点。它解决的是局部值与全局值之间是否有很大差异的问题。
显著统计学意义的冷热点是指高值或低值要素在空间上发生聚类。例如具有显著统计学意义的正值z得分,z得分越高,高值(热点)的聚类就越紧密。
执行新兴时空热点分析除了能够得到热点分析的结果,同时还可以得到同一空间位置,按照条柱时间序列评估Z得分的趋势,以及值的趋势。
2. 工具参数
根据上述原理,来拆解一下重要参数。
新兴时空热点分析工具
输入时空立方体必须是通过聚合点、已定义位置或多维栅格图层创建时空立方体工具创建的 NetCDF 文件。这个选项与时空模式挖掘工具中的所有工具都是一致的,仅支持上述三种方式生成的时空立方体。
分析变量一般是创建时空立方体时选择的变量。可以是计数、汇总字段或者属性字段。
空间关系的概念化、空间邻域数和邻域时间步长三个参数综合起来描述参与分析的条柱时空邻域,也就是局部范围 。
绿色表示局部范围
其中空间关系的概念化是指空间关系,也就是定义参与运算的邻域范围,这里是指在二维方向上的。
空间关系的概念化包括四种情况。
(1)固定距离
选择固定距离后将会出现邻域距离(表示距离大小)参数,两者结合使用,用于选择固定距离内的邻域条柱。如下图,距离为5,绿色点为近邻数量。
固定距离
(2)K-最近邻
指定近邻数量,距离可变。如下图K为近邻数量8,距离可能是5或者是7。
| |
K最近邻
(3)仅邻接边
只有边相交的,才算邻接。如下图E、G属于A的邻域要素。
仅邻接边
(4)邻接边拐角
只要有边或者角相邻的,都算邻接。如下图D、E、F、G、H属于A的邻域要素。
邻接边拐角
空间邻域数用来指定邻域的最小数目。它与空间关系的概念化参数对应使用。
邻域时间步长是指分析邻域中的时间步长间隔数,是指从当前条柱开始,向后聚合指定时间步长间隔数,所包含的条柱就是邻域范围。例如,值为 2 的邻域时间步长包含3个时间步长间隔。
输出要素是二维面,用来表达数据中热点和冷点趋势主题,趋势有17种。我们在输出结果部分再详细介绍。
面分析掩膜用来限制研究区域的范围。目的是逻辑上排除不存在分析结果的区域。如分析入室盗窃的热点,可以通过面分析掩膜来排除没有任何家庭覆盖的公园、水库等等区域。
定义全局窗口是指参与热点分析的全局范围。
全局范围包括三种情况
(1)整个立方体
整个立方体
(2)邻域时间步长
邻域时间步长
(3)单一时间步长
单一时间步长
3. 输出结果
从实现原理中,可以总结得出新兴时空热点分析本质上是执行了三个分析。分别是:
(1)热点分析,表示每个条柱上高值和低值聚类的密集程度,最终时空立方体中每个条柱都生成了z 得分、p 值和分组类别。所以更适合在3D视图中展示。
(2)在热点分析基础上,按照条柱时间序列执行聚类(值为Z得分)的趋势分析,也使用Mann-Kendall 统计方法,趋势分析的结果为聚类趋势 z 得分、p 值和每个位置的分组类别。也就是说同一个条柱时间序列最终只会生成一个趋势,所以只能在2D视图中展示。(这部分内容可以参考多维时空数据介绍1中关于趋势部分的介绍)。
(3)在热点分析基础上,按照条柱时间序列执行值的趋势分析,也使用Mann-Kendall 统计方法,趋势分析的结果为趋势 z 得分、p 值和每个位置的分组类别。这个结果与创建时空立方体时生成的趋势是一致的。也只能在2D视图中展示。本文中将不再演示相关内容。
基于以上思路,我们来具体拆分一下新兴时空热点分析工具的所有输出结果及可视化展示内容(值趋势除外)。
3.1 工具直接结果
新兴时空热点分析工具运行完成之后,会默认生成输出要素,它是一个二维面,将数据按照冷热点以及趋势信息分为17类,并使用模式(Patten)字段渲染。关于这17种分类的定义,帮助文档不太好看懂,需要结合属性表中的多个字段进行说明。
二维面数据的属性表中包含了CATEGORY、PATTERN、PERC_HOT、PERC_COLD、TREND_ZSCORE、TREND_PVALUE、TREND_BIN、SUM_VALUE、MIN_VALUE、MEAN_VALUE、STD_VALUE、MED_VALUE等字段。
其中SUM_VALUE、MIN_VALUE、MEAN_VALUE、STD_VALUE、MED_VALUE字段是值数据的相应数学运算结果。
PERC_HOT、PERC_COLD是指同一个二维位置上的热点或者冷点条柱个数在时间序列总数中所占百分比。例如时间间隔步长为48,在同一个二维位置上的条柱时间序列中有5个条柱为热点,则PERC_HOT结果为5/48。通过这两个字段可以基本判断条柱时间序列整体是热点(红色系渲染)还是冷点(蓝色系渲染)。
TREND_ZSCORE、TREND_PVALUE、TREND_BIN是基于Z得分的趋势分析得到的内容。
TREND_ZSCORE表示冷热点聚类强度的趋势,正的 z 得分表示上升趋势;负的 z 得分表示下降趋势。注意表示趋势,并不表示冷热点聚类强度。
TREND_PVALUE表示冷热点z 得分趋势的统计显著性。P值越小统计越具有显著性。
TREND_BIN表示冷热点z 得分呈统计显著性上升或下降趋势类别。共有7类。可以认为是根据TREND_ZSCORE、TREND_PVALUE两个字段综合判断而来。
CATEGORY、PATTERN这两个字段是结合条柱时间序列的整体冷热点情况以及其聚合趋势共同得出的。两个字段本身对应。
新兴时空热点分析工具直接输出结果
3.2 在2D视图中显示数据
在上一节的内容中,我们也提到了每进行一次时空挖掘分析,都将生成新的时空立方体或者在原时空立方体中生成新的主题。新兴时空热点分析就是在原时空立方体中生成新的主题。
在2D模式下显示运行过新兴时空热点分析的时空立方体时,会对应多了热点和冷点趋势与新兴时空热点分析结果两个主题。
选择新兴时空热点分析结果主题后,显示结果与新兴时空热点分析的输出结果完全相同。
选择热点和冷点趋势主题后,则生成一个新的二维面,其中的属性表包含的字段比新兴时空热点分析结果要少,重要字段为TREND_ZSCORE、TREND_PVALUE、TREND_BIN,仍然表示基于Z得分的趋势分析得到的内容,这与新兴时空热点分析结果中对应的字段内容是完全相同的。唯一不同的就在于热点和冷点趋势主题使用TREND_BIN字段渲染,而新兴时空热点分析结果使用Pattern字段渲染。
2D视图中显示热点和冷点趋势
3.3 在3D视图中显示数据
在3D模式下显示运行过新兴时空热点分析的时空立方体时,会对应多了热点和冷点结果一个主题。该主题仅表示每个条柱的统计显著性。
选择热点和冷点结果主题后,生成一个新的三维点数据。
核心的字段主要包括HS_ZSCORE、HS_PVALUE、HS_BIN,这三个字段是时空立方体做热点分析后生成的。表示当前条柱的冷热点信息。
HS_ZSCORE表示高值(热点)和低值(冷点)聚类的强度。
HS_PVALUE表示高值(热点)和低值(冷点)聚类的统计显著性,P值越小越好。
HS_BIN表示按照统计显著性热点值或冷点值的结果,为每个条柱进行分类。
热点和冷点结果主题使用HS_BIN字段渲染。
可以发现,在2D视图中,可以查看冷热点和趋势信息;在3D视图中,可以查看条柱的冷热点信息,但是不显示趋势。要想深刻的理解2D视图中17类冷热点的区别,可以结合三维视图进行查看。
下图中分别展示了相同位置上的三维及二维新兴时空热点分析的效果。再将两个数据叠加到一起。可以看出同一时间序列的条柱有7个。时空立方体中蓝色条柱表示为冷点(低值),红色条柱表示为热点(高值)
以最下角时间序列为例,7个条柱中有4个是热点,3个无统计显著性,且热点不具有连续性,其总数量不超过90%(4/7)。这与二维面结果中分散的热点类型正好对应(此位置是断断续续的热点。至多 90% 的时间步长间隔已经是具有统计显著性的热点,并且时间步长间隔均不是具有统计显著性的冷点)。
再来看最下角的左侧时间序列,7个条柱中有1个是热点且位于最后时间步长位置,6个无统计显著性。与新增热点的定义一致(此位置是最后时间步长的具有统计显著性的热点,并且以前从来都不是具有统计显著性的热点)。
二维结果结合三维视图