树模型-随机森林RF

最新推荐文章于 2024-08-07 00:22:51 发布

myazi

最新推荐文章于 2024-08-07 00:22:51 发布

阅读量1.6k

点赞数

分类专栏：机器学习机器学习

本文链接：https://blog.csdn.net/u010865478/article/details/82708377

版权

随机森林是集成学习中的一种Bagging方法，通过Bootstrap Sampling选择样本和随机选择特征来构建基学习器，从而防止过拟合。每个基学习器是决策树的浅版本，通过多数投票或平均值进行预测。随机森林适用于高维数据和特征缺失，具有抗过拟合能力和并行化训练的优点，但在回归问题和小数据集上可能表现不佳。

摘要由CSDN通过智能技术生成

树模型

1、决策树 ID3，C4.5，CART

2、随机森林RF

3、Adaboost

4、GBDT

5、XGboost

6、孤立森林（异常检测）

二、随机森林RF

一、集成学习

集成学习通过构建多个学习器采用加权的方式来完成学习任务，类似于“三个臭皮匠顶个诸葛亮”的思想。当然多个学习器之间需要满足一定的条件，一般来讲，多个学习器同属于一种模型，比如决策树，线性模型，而不会交叉用多种模型。为了保证集成学习的有效性，多个弱分类器之间应该满足两个条件：

1）准确性：即个体学习器要有一定的准确性，在训练集上正确率至少达到 0.5 才能有好的效果。

2）多样性：即学习器之间要有一些差异，因为完全相同的几个学习器集成起来后完全没有任何效果。

目前，集成学习主要分为Bagging和Boosting两种方式，前者通过Booststrap Aggregation的重采样得到多组训练集，并行的训练基学习器。而后者是一种提升的思想，基学习器是串行执行的，下一个学习器会基于上一个学习的经验进行调整，学习器前后有依赖关系，多个学习器最终组合得到强学习器。

//集成学习的有效性说明：

二、随机森林

随机森林是集成学习中Bagging方式的代表，其相对决策树的提高很重要的一点防止过拟合，主要通过以下两点来防止过拟合，这与深度学习中的Dropout（随机的丢失一些样本和特征）技术非常相似

1）样本选择随机：Bootstrap Sampling

2）特征选择随机：基学习器决策树的特征选择 $log_{2}d$

Bootstrap Sampling：是一种统计学上的抽样方法，该方法是这样执行的，对于有 $m$ 个样本的数据集 $D$ ，进行 $m$ 次有放回采样得到数据集 $D′$ ，这样 $D$ 与 $D'$ 的大小一致。有放回采样使得 $D′$ 中有的样本重复出现，有的样本则没有出现，简单估计一下，某个样本在 $m$ 次采样中始终没被采到的概率为 $(1 - \frac{1}{m})^{m}$