gis环境设置在哪_【博客翻译】房价预测:基于森林的分类与回归&GIS

原文链接:https://medium.com/geoai/using-forest-based-classification-regression-to-model-and-estimate-house-values-5a0e26682c42

原作者:Alberto Nieto
翻译:荆雪涵

ArcGIS Pro 2.2发布了一个全新的机器学习工具辅助预测:基于森林的分类以及回归。该工具可以用于高效的设计,测试,部署预测模型。

bbba8fa788499fe6dce18441abf84a80.png

基于森林的分类和回归,使用了Leo Breiman随机森林算法,该算法是用于分类和预测的一种十分常见的监督机器学习算法。使用工具可以轻松的结合表格数据,距离特征数据,语义栅格数据,构建预测模型,使得所有的GIS用户都可以使用预测模型。

为了较好的展示工具的功能,我们将使用工具解决数据科学圈内十分受欢迎的一个问题:房价预测。我们将几何空间特征构建预测模型,从而帮助提高加州房价预测的精度。

预测加州房价

我们的数据来自Kaggle的加州房产数据集。数据包含加州的区域分块以及每个分块内的各个属性参数。

327bb4439e24cde4d84b2f390e4c0e71.png

光看上面这张表我们很难获取有用的信息。我们将上面的数据在地图上展示出来,并且使用平均房价来绘制图例。

f103d62d7e6989c7947100e97d17e252.png

地图中,每一个点代表区块的几何中心。点的颜色代表平均房价,蓝色代表低房价,黄色代表中间房价,红色代表高房价。

从地图中,我们是否可以看出一些规律呢?

可以看出高房价基本分布在大都市的周边,以及海岸线。ArcGIS Pro中的图标可以帮助我们进一步的分析规律。

289bc38694531f67f42a9e70a549025f.png

我们看一下表格中剩余的一些数据。每一条目都包括该区块内部房价的一些信息。

c03f1d715ef6ee65f63460873c68d729.png

我们将预测每一个区块内的median house value(房价中值),这些属性对预测都十分的重要。

我们首先参考Aurelien Geron在《手把手使用Scikit-Learn与Tensorflow学习机器学习》一书中的例子,书中随机森林模型是完全基于非空间特征的(上面属性表中所示的数据 )。

我们将使用其他的GIS图层来评估邻近地理位置的作用,从而提高模型预测房价的精度。

非空间模型

第一个模型参考了《手把手使用Scikit-Learn与Tensorflow学习机器学习》一书中的例子,使用了一下的特征:Median income, housing median age, total rooms, total bedrooms, population households, ocean proximity. (收入中间值,年龄中间值,房间数,卧室数,人口,居住人数,海岸靠近程度)。

我们打开Forest-based Classification and Regression 工具。

312b069c841eb748337da770469073f1.png

467b0fbb03e4f74f9768c97c94274e32.png

第一个参数是工具的运行任务类型。我们首先需要探索模型诊断数据并且观察各种特征排列组合所带来的差别。所以我们将第一个参数设置为“Train Only”。

我们设置好带训练的特征,加州区块图层,待预测属性设置成“median_house_value”,并且添加需要训练的各个属性。当完成设置后,工具的界面如下,

4af3ed5d214cb9084c6459d34a6d6833.png

运行工具,工具创建了一个森林,森林建立了各个训练属性与待预测属性的关系。关于随机森林的原理,详细可以阅读该文。

以下是工具运行后的结果。

141460c462fd6d7a244eb0201a1f5318.png

结果中的Top variable importance 告诉我们哪一个参数对模型预测更加有用。(median income和ocean proximity起着很大的作用)。我们看一下R平方值0.76.

如果想要每次的运行结果都一样,可以在环境变量Random Number Generator设置随机种子。随机种子在确保随机性的同时,保持每次的运行结果都是一样的。

空间模型

上面我们仅仅使用了非空间特征作为训练数据,下面我们将往训练数据中添加距离位置特征。我们的目的是计算每一区块相互之间的距离以及潜在的重要特征是如何影响我们的最终房价的。我们加入了高尔夫球场,学校,医院,娱乐场所以及墓地的点要素图层。我们还使用了加州的海岸线多边形图层。

为了计算各种距离信息,我们可以使用脚本语言使用邻近分析函数批量计算每一种地理要素之间的距离值。或者我们可以将这些要素直接添加到“Explanatory Training Distance Features”参数中去。

9eab9b3b410830f6f22a762a24bf0c9a.gif

当我们加载完距离要素后,我们可以运行工具。工具的参数设置如下。

a3802d99ec3798b0b72371dc8f6db085.png

当然你还可以加入其他潜在的训练要素。比如,你可以加入公共交通数据,看看该数据对模型有什么影响。

d58f08b33e0db01145784b8e4426e8d0.png

新的回归模型的R平方值为0.763。加入距离因素的模型比原始的模型要好一些。这就证实了位置数据的重要性。

工具将运行结果显示在下面的地图中。

d8e2f134aa470756419f185115af825f.png

尽管使用训练数据预测最终结果没有实际的意义,但是上面分析从侧面验证了距离位置特征可以改善我们的模型。而且使用ArcGIS Pro的工具,把GIS图层信息结合到机器学习模型中是如此的简单。

在使用该工具是,我们还需要考虑多重共线性问题。想要深入理解如何规避多重共线性问题,推荐阅读该工具的使用手册。

总结

分析预测通常需要花很多时间反复探索试错。为了支持这个工作流,我们需要一个工具可以结合空间数据,辅助测试,快速评估结果,直到得到满意的结果。

Forest-based Classification and Regression工具拓展了随机森林机器学习算法,不但可以使用传统表格属性,还可以在模型中加入空间属性进行分析。

资源

Forest-based Classification and Regression Tool Documentation

How Forest-based Classification and Regression Works

Spatial Statistics Resources

Use of Forest-based Classification and Regression in Asthma Hospitalization Case Prediction

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值