由于单棵决策树会产生过拟合问题,为解决这些问题产生了各种各样的优化算法,随机森林就是其中之一。随机森林是一种多功能的机器学习算法,能够执行回归和分类的任务。同时,它也是一种数据降维手段,用于处理缺失值、异常值以及其他数据探索中的重要步骤,并取得了不错的成效。
1.随机森林拓扑图
由数据集生成多棵决策树,由多棵决策树生成森林,所以我们需要解决一下两个问题:怎么生成一棵棵树,怎么组成一个森林呢?
2.随机森林
随机森林中的每一棵树都会给出自己的分类选择,并由此进行“投票”,森林整体的输出结果将会是票数最多的分类选项;
而在回归问题中,随机森林的输出将会是所有决策树输出的平均值随机森林的随机主要体现在生成树的过程的随机性,针对数据集随机采样,根据采样数据集随机选择属性生成树,最后组合成森林
缺点:
1.随机森林在解决回归问题时并没有像它在分类中表现的那么好,这是因为它并不能给出一个连续型的输出。当进行回归时