随机森林 RF 在 Kaggle 大名远播,称霸很久。
那么,我们这里就先聊聊原因。以下分析来自 University of San Francisco, CS 硕士课程。
随机森林(文中记为 RF)有以下 5 个优点:
1。用法:RF 支持针对连续对象的回归算法,也支持针对离散对象的分类算法。
2。过拟合:RF 不太容易过拟合,因为 RF 本质上是模型集成(model ensemble),从 Leo Breiman 的理论来看 RF 也不会因为 树 数量的增加,而导致过拟合,因为这些数都是集合在一起的单独模型,效果不好的树会被 downvote。但是使用 out of bagging 的方法是推荐来帮助 RF 减少过拟合的方法,就是保留一个 validation 数据集在多个模型中选取评价指标更好的模型。
3。范化能力:RF 的范化能力也比较好,比较能够处理异常值,不太容易出现波动。
4。数据分布要求:不像线性模型,RF 也不要求数据分布符合正态分布,来得到统计结果上的近似。因此任意的数据分布都可以使用 RF。
5。特征工程:对于一些简单的线性模型,为了增加特征,我们往往需要增加 这样的特征来作为模型的输入,帮助模型