随机森林总结

最新推荐文章于 2024-01-29 17:17:07 发布

米法·

最新推荐文章于 2024-01-29 17:17:07 发布

阅读量1.2k

点赞数 2

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TSzero/article/details/119456417

版权

机器学习专栏收录该内容

26 篇文章 22 订阅

订阅专栏

一、为什么要有放回抽样，而不是无放回？

保证数据量。假设总共有10w条样本，采用无放回抽样，用100颗树，这样每棵树最多只能用1000条样本。
如果不放回抽样，那么每棵树用的样本完全不同，基学习器之间的相似性过小，投票结果差，模型偏差大

二、怎么样给出特征重要性的？

对于每棵决策树，用袋外数据计算它的袋外数据误差，记为 $e r r 1$
随机地对袋外数据所有样本的特征 $X$ 加入噪声干扰(就可以随机的改变样本在特征X处的值)，再次计算它的袋外数据误差,记为 $e r r 2$
假设随机森林中有 $N$ 棵树，那么特征 $X$ 的重要性就等于 $\frac{1}{N}\sum(err2-err1)$

若给某个特征随机加入噪声之后，袋外的准确率大幅度降低，则说明这个特征对于样本的分类结果影响很大，也就是说它的重要程度比较高。

三、怎么样进行特征选择？

对随机森林中的特征变量按照VI（Variable Importance）降序排序
确定删除比例,从当前的特征变量中剔除相应比例不重要的指标，从而得到一个新的特征集
用新的特征集建立新的随机森林,并计算特征集中每个特征的VI,并排序
重复以上步骤,直到剩下m个特征

四、为什么随机森林能降低方差？

假设模型之间是相互独立的，每个模型的方差是 $\sigma^2$ ，那么随机森林的方差就是 $Var(\frac{1}{n}\sum\limits_{i=1}^n X_i)=\frac{\sigma^2}{n}$
但模型之间并不是独立的，假设单模型之间具有相关系数 $0\lt\rho\lt1$ ，那么随机森林的方差为 $Var(\frac{1}{n}\sum\limits_{i=1}^n X_i)=\frac{\sigma^2}{n}+\frac{n-1}{n}\rho\sigma^2$ 当 $n$ 很大时，模型方差趋于 $\rho\sigma^2$ 。而随机森林又随机选取特征，所以单模型之间的相关性更低，所以模型方差更小。

五、优缺点？

优点
- 方差小，泛化能力强
- 表现较好
- 能够给出特征重要性
- 能够处理高维的数据
- 可以高度并行化
缺点：
- 在噪声较大的分类或者回归问题上会过拟合
- 比决策树慢
- 像一个黑盒子，你无法控制模型内部的运行

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
随机森林总结

一、为什么要有放回抽样，而不是无放回？保证数据量。假设总共有10w条样本，采用无放回抽样，用100颗树，这样每棵树最多只能用1000条样本。如果不放回抽样，那么每棵树用的样本完全不同，基学习器之间的相似性过小，投票结果差，模型偏差大二、怎么样给出特征重要性的？对于每棵决策树，用袋外数据计算它的袋外数据误差，记为err1err1err1随机地对袋外数据所有样本的特征XXX加入噪声干扰(就可以随机的改变样本在特征X处的值)，再次计算它的袋外数据误差,记为err2err2err2假设随机森林中有
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。