白话空间统计二十:相似性搜索(三)

本文介绍了在ArcGIS中实现属性值相似性搜索的方法,并通过具体案例展示了如何计算不同对象间的相似性指数。文章强调了根据研究目的选择合适分析算法的重要性。

昨天简单的写了写相似性搜索的主要方法,这些方法对于学GIS的同学来说,实在是太简单了,所以很多同学反应:虾神泥垢了!科普也要有点深度可好,你是在凑字数么!!

 

好吧,我觉得上篇文章是有点点问题……我们要向前看,反正已经发出去了,这篇文章就扔那里吧,作为存档用。

 

今天继续写相似性搜索,昨天说了6种方法,简单是简单,但是大道至简,所有的分析算法,都是从这些简单的内容里面发展来的。不过还缺了一点点没有说完,就是所谓的匹配方法。


比如怎么比较两个数值,认为他们相似?

 

有的同学说,这还不容易么,我把数据一排序,越近就越相似了。没错,这是主要的方法之一,但是我举下面一个例子就可以看出来了:

 

有这样一个宠物体重表格:


 

首先如果不计算,直接利用无敌瞎猜大法,凭着直觉,来看看哪两个相识度高呢?这还用说,当然是两个皮搋子猫了啊,如下:


 

其实大家的预感和计算结果是一样的,但是如果我要研究的并非绝对数据呢,比如,我要研究的月份之间的变化趋势——这份数据是一份趋势数据,属于动态变化的,从变化的趋势,可以看出很多内容,比如:宠物喂食量?宠物的 心情?气候影响……等等等等,所以当我们画出趋势变化来之后,变成了如下情况:


 

第一只傻笑猫和那个比丘龙的体重,响应的上升和下降趋势几乎完全一样,而第二种闭嘴猫的体重处于直线上升的状态(怎么这么像虾神的趋势呢?),所以不管从趋势上来看,还是从研究意义上来看,要进行相似性搜索的话,傻笑猫和比丘龙当之无愧的被归类到了相似里面。

 

上面举出的这个例子,可以看出,首先感觉是不可靠的(此次应有掌声)……其次就是不同的研究目的,应该采用不同的分析算法。

 

下面我就来介绍一下在ArcGIS里面,提供的集中不同的相似性搜索算法:

 

一、属性值相似性搜索法:

ArcGIS里面,提供了ATTRIBUTE_VALUES 这样一个参数,选择这个参数进行相似性搜索的话,会忽略空间关系,直接通过选定的属性进行计算。计算方法如下:

对于每个候选要素,将从目标要素中减去标准化值(标准化值在ArcGIS里面,采用平均数),求得平方,然后再将每个结果相加。相加的总和即为该候选要素的相似性指数。所有候选要素经处理后,按照指数从小(最相似)到大(最不相似)的顺序对候选要素进行分级。计算过程如下:

(注意:在ArcGIS的帮助文档里面squaresthe differences翻译成了:平方差,这是错误的,如下:)

 



 

但是实际上用的是差的平方:即(a-b)的平方,而非数学上面的平方差(a的平方-b的平方)

这里一定要注意,否则计算的时候会发现你的手动计算出来的结果和最终结果完全不一样……切记切记。

 

 

最后计算过程如下:


 

 

计算结束之后,可以看出来,如果仅仅是按照绝对数据进行计算,我们的感觉和结果是一样的,闭口猫的相似性系数为0.8,而比丘龙的相似性系数到达33,相似性系数越小,表现越相似,如果等于0,就表示他们完全相等。

 

而前面我说那种关于趋势变化的相关性,我们在下次继续。

 

 

### 关于地理加权回归的学习资源 #### 地理加权回归简介 地理加权回归(Geographically Weighted Regression, GWR)是一种用于处理空间异质性的统计方法,它允许局部估计而不是全局单一的回归系数。这种方法特别适用于研究那些随地理位置而变的关系模式。 #### 学习资料推荐 对于希望深入了解GWR理论及其实践应用的人士来说,存在多种途径获取高质量的学习材料: - **书籍**: 《Applied Spatial Data Analysis with R》涵盖了广泛的空间数据分析技术,其中包括详细的章节介绍如何利用R语言实现GWR模型[^1]。 - **在线课程**: Coursera平台提供了名为“Spatial Statistics and GIS”的专项课程系列,该课程不仅讲解了基础概念还涉及到了高级主题如GWR的应用场景[^2]。 - **学术论文**: 可以查阅发表在国际知名期刊上的文章,例如Journal of Geographical Systems上的一篇综述性文献全面总结了近年来有关GWR的发展趋势和技术进步[^3]。 #### 实际操作指南 为了帮助初学者更好地掌握这一技能,在实际项目中运用所学知识至关重要。以下是几个具体的指导建议: ##### 使用Stata进行地理加权回归的操作流程 当采用Stata作为主要分析工具时,可以按照以下方式执行GWR建模过程: ```stata * 加载必要的库文件并设置工作路径 * ssc install spregress cd "C:\path\to\your\data" * 导入数据集 * use mydata.dta, clear * 执行地理加权回归命令 * spregress y x1 x2 ..., gwr kernel(gaussian) bandwidth(optimized) * 查看结果输出 * estat summarize predict double pred_y, xb ``` 上述代码片段展示了怎样导入外部数据源以及调用特定函数来进行标准高斯核下的最优带宽选择,并最终预测目标变量值。 ##### Python环境下实施时空地理加权回归(GTWR) 随着Python生态系统的日益成熟和完善,越来越多的研究者倾向于借助其强大的计算能力和丰富的第方包支持开展复杂的数据挖掘任务。下面给出了一段简单的例子说明如何构建GTWR模型: ```python from gtwrap import GTWRModel # 初始模型对象 model = GTWRModel() # 设置输入特征矩阵X和响应向量Y X = [[...], [...]] # 替换为实际坐标位置和其他协变量组成的列表 Y = [...] # 响应变量对应的观测值序列 # 训练模型 model.fit(X, Y) # 获取拟合后的参数估计 params = model.get_params() print(params) ``` 这段脚本首先创建了一个`GTWRModel`类实例对象,接着指定了训练样本集合中的自变量部分(含经纬度信息),最后完成了整个学习阶段并通过打印语句展示出了各因子的重要性得分情况[^4]。 #### 应用案例分享 一个典型的应用领域是在城市规划方面——评估房价波动因素的影响程度差异。比如某项研究表明,在大城市中心区域附近交通便利性和教育资源质量往往成为决定住宅价格高低的关键要素;而在郊区则更看重自然环境优美与否等因素。通过建立相应的GWR模型可以帮助政府决策部门更加精准地制定土地开发政策和服务设施布局方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

虾神说D

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值