#以下内容为个人学习记录,有不准确的地方,欢迎指正,感谢!
一、判断特征重要性(feature_importances_)的维度(importance_type):
权重(weight):在所有树中一个特征被用来分裂数据的次数。
覆盖(cover):在所有树中一个特征被用来分裂数据的次数,并且有多少数据点通过这个分裂点。
增益(gain):使用特征分裂时平均训练损失的减少量
二、计算过程:
假设根节点A,二级节点B(B有3级节点 B1 和B2)和 C(C没有下一层的节点)
A的importances_=(A.GINI * A.TOTAL-B.GINI * B.TOTAL - C.GINI*C.TOTAL)/A.TOTAL
B的importances_=(B.GINI * B.TOTAL-B1.GINI * B1.TOTAL - B2.GINI*B2.TOTAL)/A.TOTAL
之后归一化处理
A.feature_importances=A.importances/(A.importances+B.importances)
B.feature_importances=B.importances/(A.importances+B.importances)