ML算法推导细节05—随机森林RF

最新推荐文章于 2024-07-01 18:30:25 发布

九方先生

最新推荐文章于 2024-07-01 18:30:25 发布

阅读量1.5k

点赞数 2

分类专栏：机器学习总结

本文链接：https://blog.csdn.net/malele4th/article/details/90215452

版权

机器学习总结专栏收录该内容

30 篇文章 11 订阅

订阅专栏

探究算法细节，深入了解算法原理

随机森林RF

1. 套袋法Bagging
- 1.1 袋外数据
- 1.2 bagging减小方差增加偏差
2. 随机森林算法
3. sklearn.ensemble.RandomForest

1. 套袋法Bagging

（1）从原始样本集中有放回随机抽取n个训练样本，独立进行k轮抽取，得到k个训练集
（2）独立训练k个模型（基学习器可以是：决策树，ANN等）
（3）分类问题：投票产生分类结果；回归问题：取k个模型预测结果的均值
（4）预测函数可以并行生成

1.1 袋外数据

对于一个样本，在m个样本的训练集的随机采样中，每次被采集到的概率是 $\frac{1}{m}$ ，不被采集到的概率是 $1−\frac{1}{m}$ 。如果m次采样，都没有被采集中的概率是 $(1−\frac{1}{m})^{m}$ 。
当 $m \to \infty$ 时， $(1−\frac{1}{m})^m→\frac{1}{e}≃0.368$ 。也就是说，在bagging的每轮随机采样中，训练集中大约有36.8%的数据没有被采集中。
对于这部分大约36.8%的没有被采样到的数据，我们常常称之为袋外数据(Out Of Bag, OOB)。这些数据没有参与训练集模型的拟合，因此可以用来检测模型的泛化能力。

1.2 bagging减小方差增加偏差

由于Bagging算法每次都进行随机采样来训练模型，因此泛化能力很强，对于降低模型的方差很有作用。当然对于训练集的拟合程度就会差一些，也就是模型的偏倚会大一些。

2. 随机森林算法

bagging + 决策树 = 随机森林

划分属性的选择：先随机选择一部分划分点（ $n_{sub}个$ ），再从中选择最优的划分点，能增强模型泛化能力。
$n_{sub}$ 越小，模型越健壮，太小容易欠拟合，通过交叉验证获取。
每棵子树均是二叉CART树
能实现高度并行化

3. sklearn.ensemble.RandomForest

class sklearn.ensemble.RandomForestClassifier(n_estimators=’warn’, 
criterion=’gini’, max_depth=None, min_samples_split=2, min_samples_leaf=1, 
min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True,
oob_score=False, n_jobs=None, random_state=None, verbose=0,
warm_start=False, class_weight=None)

class sklearn.ensemble.RandomForestRegressor(n_estimators=’warn’,
criterion=’mse’, max_depth=None, min_samples_split=2, min_samples_leaf=1,
min_weight_fraction_leaf=0.0, max_features=’auto’, max_leaf_nodes=None,
min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True,
oob_score=False, n_jobs=None, random_state=None, verbose=0,
warm_start=False)