原文 :https://github.com/thengl/GeoMLA
摘要:本教程介绍了如何使用随机森林生成空间和时空预测(即使用随机森林从点观测生成地图)。空间自相关,特别是在交叉验证残差中仍然存在时,表明预测可能存在偏差,这是次优的。为了解释这一点,我们使用随机森林(如ranger包中实现的那样)结合到抽样位置的地理距离来拟合模型和预测值。我们描述八个典型情况下感兴趣的空间预测的应用:
(1)二维连续变量的预测没有,
(2)预测二维变量,
(3)二项预测变量,
(4)预测分类变量,
(5)预测变量的极值,
(6)加权回归,
(7)预测多变量问题,
(8)预测的时空变量。
结果表明,RFsp与基于模型的地质统计学结果具有可比性。相对于基于模型的地理统计,RFsp的优势在于,RFsp需要更少的统计假设,并且更容易自动化(并通过并行化进行扩展)。另一方面,RFsp的计算强度会随着训练点和协变量的增加而增大。RFsp仍然是一种实验方法,不推荐使用大数据集(>>1000点)。
This is a supplementary material prepared for the need of a scientific article: Hengl, T., Nussbaum, M., Wright, M. and Heuvelink, G.B.M., 2018. "Random Forest as a Generic Framework for Predictive Modeling of Spatial and Spatio-temporal Variables", PeerJ (accepted for publication). To download all data sets and more detail code examples please refer to https://github.com/thengl/GeoMLA/tree/master/RF_vs_kriging