1. 随机森林简介
随机森林采用的是bagging的思想,bagging即:通过在训练样本集中进行有放回的采样得到多个采样集,基于每个采样集训练出一个基学习器,再将基学习器结合起来共同实现分类或者回归。随机森林在对决策树进行bagging的基础上,在决策树的训练过程中引入了随机属性选择。传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性,而随机森林则是对结点先随机选择包含k个属性的子集,再选择最优属性,k作为一个参数控制了随机性的引入程度。
总结起来包括2个:
- 有放回的采集多个采样集,训练多个基分类器;
- 每个基分类器随机选择一些属性而不是全部属性;
特点:可以很好的避免过拟合
2. 随机森林怎么取最后的结果
对于分类问题:可以对多个基分类器进行投票表决的方式;
对于回归问题:对于预测的值可以简单的平均处理计算;