随机森林是一种多功能的机器学习算法,能够进行回归和分类,同时也是一种数据降维的手段,用于处理缺失值、异常值等。另外,也是一种集成学习的重要方法,可以将几个低效模型整合为一个高效模型。同CART模型不同的是,随机森林中有很多棵树,在根据某个对象的属性进行分类时,结果由这些树投票产生,而在回归时,随机森林的输出将会是所有决策树输出的平均值。
优点:
1)能较好的解决分类和回归的问题
2)较强的高维数据集处理能力,它可以处理成千上万的输入变量,并确定最重要的变量,因此被认为是一个不错的降维方法。此外,该模型能够输出变量的重要性程 度。
3)有效的对缺失数据进行估计
4)当存在分类不平衡的情况时,随机森林能够提供平衡数据集误差的有效方法。