RF, GBDT, XGBOOST 之 Random forest

最新推荐文章于 2021-06-29 10:10:47 发布

昵称123333

最新推荐文章于 2021-06-29 10:10:47 发布

阅读量888

点赞数

分类专栏： Machine Learning 文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rfliu666/article/details/72896894

版权

Machine Learning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

随机森林

博主记忆力较差，主要目的是以后忘了的时候可以不用去网上找各种资料，内容有从其他地方摘录，也有自己总结，转载请注明出处

Bagging算法

给定一个大小为 n的训练集 D，Bagging算法从中均匀、有放回地选出m个大小为 n’ 的子集 $D_{i}$ ，作为新的训练集。在这m个训练集上使用分类、回归等算法，则可得到 m个模型，再通过取平均值、取多数票等方法，即可得到Bagging的结果。（通过降低结果的方差，避免过拟合的发生）

随机森林的集成学习方法是bagging ，但是和bagging 不同的是bagging只使用bootstrap有放回的采样样本，但随机森林即随机采样样本，也随机选择特征，因此防止过拟合能力更强，降低方差。

随机森林的树可以是分类树，也可以是回归树

算法

用N来表示训练用例（样本）的个数，M表示特征数目。
输入特征数目m，用于确定决策树上一个节点的决策结果；其中m应远小于M。
从N个训练用例（样本）中以有放回抽样的方式，取样N次，形成一个训练集（即bootstrap取样），并用未抽到的用例（样本）作预测，评估其误差。
对于每一个节点，随机选择m个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征，计算其最佳的分裂方式。（不是每棵树随机选m个不子特征。而是每个节点都会随机选择m个特征）
每棵树都会完整成长而不会剪枝（Pruning，这有可能在建完一棵正常树状分类器后会被采用）。

优点

随机森林对于高维数据集的处理能力很好，并且不用做特征选择
能够在训练过程中检测到特征之间的相互影响
能够检测特征的重要性程度
泛化性能优越，不会出现过度拟合；
高度并行化，易于分布式实现

Reference

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。