对《基于机器学习的区域滑坡危险性评价方法综述》阅读的总结
1.摘要
这篇综述主要系统阐述了:作者通过阅读文献,总结了基于机器学习技术解决滑坡危险性评价方法;可以分为 1、评价因子选择 2、数据清洗与样本集构建 3、模型选取与训练评价 这三个关键环节对现有研究成果进行分析评述;最后对机器学习滑坡危险性评价方法的发展趋势提出讨论意见。
2.研究背景
由于我国国土面积体量大,地形地貌种类繁多,所以相应的滑坡灾害影响范围广。因此可以通过一些方法对区域滑坡危险性进行评估,进而划分轻重缓急区别对待。
以往经验方法:
-
基于GIS对山区地质灾害进行分析,建立数据库并开发评价模型。
-
多种数学模型开展的稳定性分区制图。
大多以数学统计分析方法为主,通过构建滑坡灾害影响因子评价体系,开展各影响因子与滑坡之间的统计规律,最后基于 GIS 开展滑坡危险性评价区
3.评价因子选取
评价单元是具有相同特性的最小地域单元,常用评价单元一般归纳为 5 类,所在确定评价单元时经常使用网格单元和斜坡单元 。
3.1评价单元的划分
- 网格单元
- 斜坡单元
3.2评价因子常用选取办法:
现状环境因子一般都是项目所处环境已存在或现有的对大气、地表水、声、生态等产生影响的因子,
3.2.1相关性分析确定评价因子:
对多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。
用各种方法剔除高共线性因子和低影响性因子
3.2.2决策树确定评价因子:
使用特征分裂数、特征平均覆盖率和特征平均增益值等方法来计算评价因子特征度量指标,反应了各个因子对 RF 模型的解释程度,根据模型输出的混淆矩阵分析准确度和因子特征重要性,最后得出坡度的特征重要性最高,即特征贡献最大。
3.2.3随机森林特征重要性确定评价因子:
这里的目的就是用随机森林来进行特征筛选,可参考方法(推算出每个因子做的贡献度的程度):
说白了就是看看每个特征在随机森林中的每颗树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小。
-
每次随机打乱任意一个滑坡因子
取值,分析前后随机森林模型的 ACC 变化,变化程度和特征重要性成正比,再通过专家赋值法赋值相应判别指
标重要性,构造因子判断矩阵 U -
通常可以用Gini index或者袋外数据(OOB)错误率作为评价指标来衡量。
我们将变量重要性评分(variable importance measures)用VIM来表示,将Gini指数用GI来表示,假设有m个特征X1,X2,X3,… Xc,现在要计算出每个特征X j的Gini指数评分VIM(j);即第j个特征在RF所有决策树中节点分裂不纯度的平均改变量。
Gini指数的计算公式为:
其中,K表示有K个类别,Pmk表示节点m中类别k所占的比例。
直观地说,就是随便从节点m中随机抽取两个样本,类别标记不一致的概率。
特征Xj在节点m的重要性,即节点m分枝前后的Gini指数变化量为:
其中,GI(L)和GIp®分别表示分枝后两个新节点的Gini指数。
如果,特征 Xi 在决策树i中出现的节点为集合M,那么 Xi 在第 i 颗树的重要性为
假设RF中共有n颗树,那么
最后,把所有求得的重要性评分做一个归一化处理即可。
值得庆幸的是,sklearn已经帮我们封装好了一切,我们只需要调用其中的函数即可。
3.3因子量化与归一化
1.目的:
需要评估并筛选原始灾害因子,以选择合适的灾害因子,避免有一些高维特征因子,使得数据多余,增加计算成本,从而影响机器学习的评价精度。简单来讲就是把数最小为0最大为1的小数,主要是为了数据处理方便,把数据映射到0~1范围之内处理,更加便捷快速,
由于使用的模型对连续变量处理不完善,同样也将归一化之后的数据采取了离散化处理,即归一化后结果乘 10,将评估价指标限定在 0~10。结果显示空间分布更合理,适合大尺度上的灾害危险性评价。
2.归一后好处:
- 可以提升模型的精度。
- 提升模型的收敛速度。
3.方法:
其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。
-
Z-score标准化方法
这种方法给予原始数据的均值(mean) 和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
其中u为所有样本数据的均值,σ为所有样本数据的标准差。
4.数据处理
4.1原始样本选择
常用的方法是用Gis收集随机点或者区域,再以一定比例的正负样本来构造随机森林原始数据集来进行危险性评价。
4.2数据清洗与样本集构建
1.目的:
目的在于删除重复信息、纠正存在的错误,并提供数据一致性。提高模型精度。
2.方法:
`第一步:缺失值清洗(确定缺失值范围->去除不需要的字段->填充缺失内容->重新取数)
第二步:格式内容清洗(时间显示,不应存在的字符等)
第三步:逻辑错误清洗(去掉一些使用简单逻辑推理就可以直接发现问题的数据)
第四步:非需求数据清洗(把不要的字段删了)
第五步:关联性验证`
5.模型选取与训练调参
5.1案例方法
5.3模型调参
传统方法(网格搜索法,优化精度和速度成反比)和超参数优化算法------>贝叶斯优化算法(采用了高斯过程,通过增加样本数量来拟合目标函数分布,目标函数通过交叉验证精度来进行优化); 贝叶斯法比网格搜索法更高效,优化精度更高。
5.4模型比选
常用: 最常用的评价方法是模型精确度(Accuracy)、ROC 曲线和 AUC 值。
案例:
-
训练出几种不同的模型,分别绘制 ROC 曲线,并对比各模型评价结果。
-
通过 ROC 曲线、Kappa 系数和 Sridevi Jadi 精度评估方法评价对比了 5几种模型,最终综合这三种评价结果选取出最恰当的评价模。型。