参考资料
[1] 王小王-123:https://wxw123.blog.csdn.net/article/details/122831189
- 决策树的一个主要缺点在于经常对训练数据过拟合。随机森林是解决这个问题的一种方法.
- 随机森林中树的随机化方法有两种:一种是通过选择用于构造树的数据点,另一种是通过选择每次划分测试的特征。
1. 生成算法
- 从样本集中通过自助采样产生n个样本
- 假设样本特征数目为a,对n个样本选择a中的max_features个特征,用建立决策树的方式获得最佳分割点。
- 重复步骤1、2m次,产生m棵决策树
2. 随机森林的特点
2.1 随机森林的随机性
- 每一棵树的训练集是在训练集种通过自助采样产生的
- 构建树时的分割特征不是所有特征之间最优的。被选中的特征是在所有特征的随机子集种的最好分割。
2.2 随机森林的优势
- 能完成隐含特征的选择,并且提供一个特征重要度的选择指标。
- 训练速度快。
- 通用性:能够处理回归和分类问题
- 简洁性
- 相比于决策树算法,随机森林更不容易陷入过拟合。
- 能够处理高维度的数据,并且不用做特征选择。
- 对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化