随机森林(RandomForest)简单回归预测
随机森林是bagging方法的一种具体实现。它会训练多棵决策树,然后将这些结果融合在一起就是最终的结果。随机森林可以用于分裂,也可以用于回归。主要在于决策树类型的选取,根据具体的任务选择具体类别的决策树。
对于分类问题,一个测试样本会送到每一颗决策树中进行预测,然后投票,得票最多的类为最终的分类结果;
对于回归问题,随机森林的预测结果是所有决策树输出的均值。
本文介绍利用随机森林进行时间序列的简单回归预测,满足大部分科研需求。
介绍
随机森林的优点:
在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合,但是对于小数据集还是有可能过拟合,所以还是要注意;
两个随机性的引入,使得随机森林具有很好的抗噪能力;
它能够处理很高维的数据,并且不用做特征选择,对数据集的适应能力强。既能处理离散性数据,也能处理连续型数据,数据集无需规范化;
在创建随机森林的时候,对generalization error使用的是无偏估计;
训练速度快,可以得到变量重要性排序;
在训练过程中,能够检测到feature间的互影响;
容易做成并行化方法;
实现比较简单
随机森林的缺点:
对