在随机森林中某个特征x的重要性的计算方式如下:
首先是对随机森林的每一颗决策树,使用对应的OOB(袋外数据)数据来进行计算他的袋外的数据误差,记做error1
这样每个决策树都可以得到一个error1,K颗数就有K个error1.
然后就是要遍历所有的特征,来考察该特征的重要性,考察重要性的方式是,随机的对袋外的数据OOB所有样本的特征x加入噪声干扰,考察(可以理解为随机得改变样本在特征x处的值),再次计算它袋外的数据误差,记做error2,这样每棵树就可以得到一个error2,K颗树就可以的得到K个error2.
之所以可以这样的表达式来作为相应特征的重要性的度量值是因为:若给某个特征随机加入噪声之后,袋外的准确率大幅度下降,说明这个特征对于样本的分类结果影响很大,也就是说他的重要程度比较高.
对于特征X的重要性=∑(error2-error1)/Ktree