多元随机森林回归(Multivariate Random Forest Regreesor)经验总结
最近在使用随机森林解决多元回归问题,本文涉及一些经验总结,可能较片面,如果发现有误,欢迎指正。
随机森林
随机森林是解决回归和分类问题的一种很有效的机器学习算法。该算法由Breiman (2001)提出,是一种集成的决策树模型,它通过一种叫Bootstrap Aggregating或Bagging的统计学技术来实现优异的预测性能,Bagging中包含了如下随机的概念 (Hastie et al., 2008) :
- 从原训练集中进行数次Bootstrap resampling (放回式重采样)来建立数个预测器(estimator)即决策树。每个预测器中的样本将被分为In-Bag (IB) 和Out-of-Bag (OOB)样本,分别占总样本的2/3和1/3;
- 在树的每次分割时,选择自变量的随机子集进行建模&