一.知识点
二.特征重要性评估
基于树的集成算法有一个很好的特性,就是模型训练结束后可以输出模型所使用的特征的相对重要性,便于理解哪些因素是对预测有关键影响,有效筛选特征。
Random Forest
袋外数据错误率评估
由于RF采用bootstrapping有放回采样, 一个样本不被采样到的概率为
limm→∞(1−1m)m=1e≈0.368 lim m → ∞ ( 1 − 1 m ) m = 1 e ≈ 0.368因此约有 13 1 3 样本可用于”包外估计”(out-of-bag estimate, OOB)。袋外数据错误率定义为:袋外数据自变量值发生轻微扰动后的分类正确率与扰动前分类正确率的平均减少量。
Gini系数评价指标
特征 xj x j 在单棵树的变量重要性(variable importance measures)定义为:特征在所有非叶节点分裂时加权不纯度(weighted impurity)的减少量。
假设有数据集有