随机森林步骤:
-
构建多个数据集
在包括N个样本的数据集中,采用有放回的抽样方式选择N个样本,构成中间数据集,然后在这个中间数据集的所有特征中随机选择几个特征,作为最终的数据集。以上述方式构建多个数据集;一般回归问题选用全部特征,分类问题选择全部特征个数的平方根个特征
-
为每个数据集建立完全分裂的决策树
利用CART为每个数据集建立一个完全分裂、没有经过剪枝的决策树,最终得到多棵CART决策树;
-
预测新数据
根据得到的每一个决策树的结果来计算新数据的预测值。回归问题:采用多棵树的平均值。分类问题:采用投票计数的方法,票数大的获胜,相同的随机选择。可以把树的棵树设置为奇数避免这一问题。
随机森林方法图示:
方法实现:
- 回归问题
利用sklearn.ensemble包中的RandomForestReg