随机森林中特征重要性和xgboost不同:
随机森林中的特征重要性主要是基于不纯度(也可以叫做Gini importance):
计算某一个节点不纯度为
其中,
ω
k
\omega_k
ωk,
ω
l
e
f
t
\omega_{left}
ωleft,
ω
r
i
g
h
t
\omega_{right}
ωright分别为节点 k以及其左右子节点中训练样本个数与总训练样本数目的比例,
G
k
G_k
Gk,
G
l
e
f
t
G_{left}
Gleft,
G
r
i
g
h
t
G_{right}
Gright分为为节点 k 以及其左右子节点的不纯度。
节点不纯度计算完成后,计算某个Feature的不纯度为
另外,为了使所有feature的重要性加起来等于1,需要每一feature的重要性进行normalization:
对于分类问题的话,就是gini不纯度
对于回归问题的话,MSE(Mean Square error)或者MAE(Mean absolute error)
参考文章:
https://blog.csdn.net/gracejpw/article/details/102611273
https://zhuanlan.zhihu.com/p/52052903
https://mljar.com/blog/feature-importance-in-random-forest/