随机森林进行特征选取

在随机森林中某个特征x的重要性的计算方式如下:

首先是对随机森林的每一颗决策树,使用对应的OOB(袋外数据)数据来进行计算他的袋外的数据误差,记做error1

这样每个决策树都可以得到一个error1,K颗数就有K个error1.

然后就是要遍历所有的特征,来考察该特征的重要性,考察重要性的方式是,随机的对袋外的数据OOB所有样本的特征x加入噪声干扰,考察(可以理解为随机得改变样本在特征x处的值),再次计算它袋外的数据误差,记做error2,这样每棵树就可以得到一个error2,K颗树就可以的得到K个error2.

之所以可以这样的表达式来作为相应特征的重要性的度量值是因为:若给某个特征随机加入噪声之后,袋外的准确率大幅度下降,说明这个特征对于样本的分类结果影响很大,也就是说他的重要程度比较高.

对于特征X的重要性=(error2-error1)/Ktree

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值