学习感悟之--随机森林RandomForest

最新推荐文章于 2020-06-14 19:47:17 发布

叫我小小飞

最新推荐文章于 2020-06-14 19:47:17 发布

阅读量572

点赞数

文章标签：决策树算法 python 机器学习

本文链接：https://blog.csdn.net/qq_41961189/article/details/103809732

版权

本文介绍了随机森林的概念，强调了其通过多样化分类器减少方差和过度拟合的优势。随机森林的主要参数包括n_estimators、criterion等。同时，文章还探讨了决策树的基础，包括内部结点、叶结点以及熵作为分类标准。ID3算法的局限性和C4.5的改进被提及，最后提到了基于基尼系数的CRAT算法。

摘要由CSDN通过智能技术生成

#RnadomForest（sklearn学习）

在sklearn中是这样形容随机森林的：==通过在分类器构造中引入随机性来创建多样化的分类器集。各个分类器的平均预测作为输出的预测结果。==这是在说随机森林会在大样本中多几次随机抽取相同数量的数据作为训练数据，每一次抽取的数据生成一个分类器，并生成预测的结果。当所有的分类器都给出预测后，进行类似投票的形式合并结果（比如100个分类器有90个给出了预测为1，,10个预测为0，那么预测的结果即为1，也可以说是通过概率的大小得出结果）

随机森林的随机性的目的是减少森林估计量的方差。实际上，单个决策树往往会表现出较高的方差并且倾向于过度拟合。随机森林对大样本的随机多次的抽取的训练数据基本上包含了大样本的所有数据（多次抽取默认100次），这样就可以减少异常值造成的影响。最终的预测为每个分类器中预测的众数，这样减小了预测的误差（因为同样使异常值造成的影响减小了），使预测更加的准确。

随机森林的主要参数：
n_estimators：森林中决策树的个数，默认100
criterion：分类的标准默认Gini（基尼）,其公式为：
$\sum_{i=1}^{n}{p(xi)*(1-p(xi))}$

最低0.47元/天解锁文章

叫我小小飞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习感悟之--随机森林RandomForest

#RnadomForest（sklearn学习）在sklearn中是这样形容随机森林的：==通过在分类器构造中引入随机性来创建多样化的分类器集。各个分类器的平均预测作为输出的预测结果。==这是在说随机森林会在大样本中多几次随机抽取相同数量的数据作为训练数据，每一次抽取的数据生成一个分类器，并生成预测的结果。当所有的分类器都给出预测后，进行类似投票的形式合并结果（比如100个分类器有90个给出了预...
复制链接

扫一扫