空间聚类分析法C语言高程点_常规空间聚类分析方法综述(上)

本文介绍了空间聚类分析在城市规划、环境监测等领域的应用,重点探讨了点要素的聚类方法,包括核密度估计、最近邻分析和Riley's K函数分析。这些方法用于量化空间聚集程度,帮助理解数据分布特征。
摘要由CSDN通过智能技术生成

·0 序

在临近交图写这篇文章,有些不务正业。作为城乡规划(工程方向)的学生来写地理学的东西更显得外行,所以文章写的也会很不专业。

其实很早就有想法要写一篇关于空间聚类的方法介绍,起因是做过几个相关的小研究或称为小实验更准确,对于常规的空间聚类有一点小小的理解。之所以称之为常规,是因为学者关于空间聚类的研究一直在进行,不断有新的算法、研究方法产生,如叶秀斌等(2019.04)提出两阶段LSR(TLSR)子空间聚类方法。在研究对象上,也由传统的静态、标量数据转向动态、矢量的复杂数据,如王韫烨等(2020.02)根据社交网络的特点,提出了基于结构近似度的有向社交网络聚类算法。在最近刚开的《数据驱动与智慧治理--城市大数据专业委员会2020年会》上裴韬研究员做了《地理流的概念与模式》主旨报告,里面就谈到了计算各种流数据的聚类方法。正在进行的《2020地理信息技术创新大会》上也有也有这方面的报告。所以,算法在更新,所面对的对象也在更迭,而我做的一些实验仅仅是用常规聚类方法研究传统的经典问题。BCL的龙瀛老师在前一个会议的总结时有一句话说的特别好:”大数据、云计算应用了近十年,我们需要思考的是,用新的研究方法研究传统问题是否有意义?新的技术产生了新的生活方式,如抖音、共享出行、移动支付、无人驾驶、物联网、区块链......这些东西产生对城市的改变是颠覆性的,新的生活方式、社交模式必然会产生新的城市空间,那么,我们用新技术研究传统的经典问题是否合适?“这是我们作城市研究需要关注的问题。因此,本篇仅仅是基础入门性的介绍,以我的学识暂时无法触碰更新、更高的领域。

·1 引言

聚类 (clustering) 是数据挖掘领域的重要研究内容, 通过将数据集分成若干个类或簇 (cluster) ,使得同一个簇中的对象之间具有较高的相似度、不同簇中的对象差别较大, 从而发现数据的分布特征(Han等,2000)。 空间聚类作为聚类分析的一个研究方向, 是指将空间数据集中的对象分成由相似对象组成的类(席景科等,2009.07)。拿人口分布来讲,把黄种人作为一种类型,其主要集聚在亚洲,这是定性的描述,但是如何衡量其集聚的度就需要引入相应的算法。由于空间聚类的普适性,其已经被广泛应用在城市规划、环境监测、地震预报、传染病等领域, 发挥着较大的作用。

根据不同研究要素特征、算法思想等,有不同的研究方法,如曾绍琴等(2012.05)按算法思想对传统的聚类方法分为6大类:(1) 基于划分的空间聚类; (2) 基于层次的空间聚类; (3) 基于密度的空间聚类; (4) 基于网格的空间聚类; (5) 基于模型的空间聚类; (6) 基于智能计算的空间聚类。我的资历不可能写出这么高屋建瓴的东西。

下文我将从研究要素特征出发阐述不同特征要素的聚类分析方法。要素的特征我主要介绍点和面的聚类,这两种要素广泛用于各个行业。例如以点要素的研究有:人口分布特征、传染病扩散特征、文保单位分布特征等;以面要素的研究有:GDP分布格局、贫困人口分布等。主要是数据源的基本不同。

·2 点要素聚类分析方法

点是最简单的形,是几何图形最基本的组成部分。在空间中作为1个 零维的对象。在其他领域中,点也作为讨论的对象。在欧氏几何 中,点是空间中只有位置,没有大小的图形。在较大尺度的研究中,我们往往会把某些要素抽象为一个点,例如城市中的服务设施点。

点要素聚类分析方法

核密度/与点密度相似

核密度估计法(kernel density estimation,KDE)是一种非参数的估计方法,广泛应用于点位数据的空间分析之中,其原理主要借助一个移动的单元格对点格局的密度进行估计,获取要素密度变化的图示,输出连续的空间分布结果,反映点位分布的空间相对集中程度。具体计算公式为:

9fac1276fc409da781a60d943a7d57c2.png

6b6774f231eff60553b895e084b609c8.png

分析案例示例:

a821161204528afca8f67ca1a0c10f04.png

拓展:常规的分析研究中在通过核密度分析后,写分析结果时往往使用定性的方式描述,如上图:商业设施分布呈现出“圈层+多中心”的格局,高密度区域分布于西关、中山桥......其实并没有用到计算得到的值。有时候分析中需要定量的描述其分布特征,常会用到以下两种种方法:1)将输出像元设置为1kmX1km或其它规格;2)对分析得到的数值导出,做一些相关性等的研究(申庆喜等,2018.11)。

最近邻分析

核密度分析可以研究点聚集的特征,和在每一个栅格单元里面的聚集程度。无法描述对象整体在空间中的集聚程度。最近邻分析法 (nearest neighbor indicator,NNI) 是统计不同点之间最近距离的均值,该方法以点的距离为基础,主要用于测度点分布整体的集聚与分散程度。计算公式为:

e1e0b52207c05c4490a619d1bd9873c0.png

6143fc0e93dee73b07c5fbf8d371e029.png

最近邻分析z 得分和 p 值结果是统计显著性的量度,用来判断是否拒绝零假设。但是应注意,此方法的统计意义受研究区域大小的强烈影响。

 “最近邻指数”的表示方式是“平均观测距离”与“预期平均距离”的比率。预期平均距离是假设随机分布中的邻域间的平均距离。如果指数小于 1,所表现的模式为聚类;如果指数大于 1,则所表现的模式趋向于离散或竞争。

分析案例示例:

1b0de568fd554b1e719b706b37b52e03.png

P值<0.01,NNI(最近邻比率)为0.617,表明商业设施在空间上呈现出较强的即集聚性。

Riley's K函数分析

最近邻指数能够判断各类网点整体的空间集聚特征,但无法判断在不同空间尺度上的集聚特性。Riley's K函数即多距离空间聚类分析,是点格局分析的常用方法,按照一定半径距离的搜索圆范围来统计点数量。计算公式为:

727e1b1fa4941301ab09fb1eac875a3b.png

044021e7f8a7c6e58db49dd7e6289060.png

在随机分布状态下,L(t)(观测值)的期望值为0,L(t)与距离t的关系图可以验证依赖于尺度t的点的空间分布格局。L(t) >0,为集聚分布;L (t) <0,为离散分布;L (t) =0,为随机分布。L (t) 的置信区间采用Monte Carlo方法求得。L (t)的第一个峰值 (偏离置信区间的最大值)可用于度量集聚程度,其所对应的t值用来度量集聚规模。

如果特定距离的 t观测值大于 t预期值(微分值),则与该距离(分析尺度)的随机分布相比,该分布的聚类程度更高。如果 t 观测值小于 t 预期值,则与该距离的随机分布相比,该分布的离散程度更高。如果 t 观测值大于 HiConfEnv (上包迹线)值,则该距离的空间聚类具有统计显著性。如果t 观测值小于 LwConfEnv  (下包迹线)值,则该距离的空间离散具有统计显著性。

此处以之前做过的一个研究为例:

2a06d3e714e733c696fd8c027b2602d0.png

该要素在 50km 内的?(?)曲线整体大于上包迹线,呈集聚分布模式,在 99%的置信度上全部通过检验。其集聚的空间特征尺度18km。

一般来讲,不会单独研究一个要素一个时段的集聚特征,常常会与其它要素/时段进行对比分析。

小结

前面主要介绍了点要素在做空间聚类常用的方法,从集聚格局-集聚特征-集聚尺度三方面循序渐见,分析研究点要素的空间聚类。这三种是最常用和最常规的方法,也是入门的基础,如想了解更新的分析方法,可以查阅相关的文献。

叶秀斌,简彩仁,夏靖波.两阶段最小二乘回归子空间聚类方法[J].厦门大学学报(自然科学版),2019,58(04):595-599.

王韫烨,孔珊,李亚伦.基于结构近似度的社交网络聚类[J].南京理工大学学报,2020,44(02):230-235.

席景科,谭海樵.空间聚类分析及评价方法[J].计算机工程与设计,2009,30(07):1712-1715.

Han J W, Kamber M.Data Mining:Concepts and Tech-nologies[M].Morgan Kaufmann, 2000.

曾绍琴,李光强,廖志强.空间聚类方法的分类[J].测绘科学,2012,37(05):103-106.

申庆喜,李诚固,刘仲仪,胡述聚,刘倩.长春市公共服务设施空间与居住空间格局特征[J].地理研究,2018,37(11):2249-2258.

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值