随机森林是以决策树作为基学习器的集成模型,特点是低方差低偏差,分成两部分,随机和森林。
原理/步骤:
- 有放回的随机抽取一部分样本建立决策树;(随机1)
- 建立决策树时,每一次都随机选取特征的子集进行不纯度的计算进行分割;(随机2)
- 最后基于所有决策树得到的结果,采取少数服从多数的方法得到最终结果。
优点:
- 由于两个随机性,模型的抗过拟合能力强,比较稳定;
- 能处理高维数据,不用做特征选择,还能得到特征重要性排序;
- 既可以用于分类,也可以用于回归;
- 既能处理离散型数据,也能处理连续型数据;
- 提供class_weight=balanced参数,可以处理不平衡数据。
缺点:
- 当数据维度过多时,由于会对每个特征的每个值进行不纯度计算,所以效率会比单纯决策树要慢;
- 无法给出连续的输出,生成的结果不会超出给定的训练集中结果的范围。
应用场景:既可以用于分类也可以用于回归问题,不适用于需要高实时的场景。