机器学习-随机森林总结

最新推荐文章于 2024-05-29 21:27:08 发布

Mark_Aussie

最新推荐文章于 2024-05-29 21:27:08 发布

阅读量848

点赞数

文章标签：机器学习

版权

Bagging思想：从总体样本当中随机取一部分训练，通过多次的结果，投票获取平均值作为结果输出，尽可能避免不好的样本，提高准确度。不好的样本相当于噪声，模型学入噪声后会使准确度不高。

随机森林：基于树模型的Bagging优化版本，一棵树不如多棵树，使用多颗决策树，解决决策树泛化能力弱的特点。

同一批数据用同样的算法只能产生一棵树，这时Bagging策略可产生不同的数据集。

Bagging策略来源于bootstrap aggregation：从样本集（假设样本集N个数据点）中重采样选出Nb个样本（有放回的采样，样本数据点个数仍然不变为N），

树的生成规则：

在所有样本上，对这n个样本建立分类器（ID3\C4.5\CART\SVM\LOGISTIC），重复以上两步m次，获得m个分类器，最后根据这m个分类器的投票结果，决定数据属于哪一类。

一开始我们提到的随机森林中的“随机”就是指的这里的两个随机性。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入，使得随机森林不容易陷入过拟合，并且具有很好得抗噪能力（比如：对缺省值不敏感）。

总的来说就是随机选择样本数，随机选取特征，随机选择分类器，建立多颗这样的决策树，然后通过这几课决策树来投票，决定数据属于哪一类(投票机制有一票否决制、少数服从多数、加权多数)

分类效果：

减小特征选择个数m，树的相关性和分类能力也会相应的降低；

增大m，两者也会随之增大。关键问题是如何选择最优的m（或者是范围），这是随机森林唯一的参数。

优点：

缺点：

随机森林对缺失值的处理：

该缺失值填补过程类似于推荐系统中采用协同过滤进行评分预测，

先计算缺失特征与其他特征的相似度，再加权得到缺失值的估计，

而随机森林中计算相似度的方法（数据在决策树中一步一步分类的路径）乃其独特之处。

构建随机森林的关键问题就是如何选择最优的m，需要依据计算袋外错误率oob error（out-of-bag error）解决。

bagging方法中Bootstrap每次约有1/3的样本不会出现在样本集合中，这1/3的数据称为袋外数据oob（out of bag），可用于取代测试集误差估计方法。

袋外数据(oob)误差的计算方法如下：

优缺点：OOB是无偏估计的，所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。

参考：

关注