1. 什么是随机森林?
定义:随机森林是指利用多棵决策树对样本数据进行训练、分类并预测的一种方法,它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。
2.应用
- 随机森林主要是应用于回归和分类这两种场景,又侧重于分类
- 对于分类问题,按多棵树分类器投票决定最终分类结果
- 而对于回归问题,则由多棵树预测值的均值决定最终预测结果
3. 随机森林的构建
- 首先利用bootstrap方法从原始训练集中随机抽取n个样本,并构建n个决策树;
- 然后假设在训练样本数据中有m个特征,那么每次分裂时选择最好的特征进行分裂 每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类;
- 接着让每颗决策树在不做任何修剪的前提下最大限度的生长;
- 最后将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行分类与回归。
4.随机森林的超参数
1)n_estimators(树的数量)
- 它表示建立的树的数量。
- 一般来说,树的数量越多,性能越好,预测也越稳定,但这也会减慢计算速度。
- 一般来说在实践中选择数百棵树是比较好的选择,因此,一般默认是100。