Task1 随机森林

最新推荐文章于 2021-10-24 00:14:24 发布

xfx小飞侠

最新推荐文章于 2021-10-24 00:14:24 发布

阅读量105

点赞数

分类专栏：算法总结文章标签：随机森林

本文链接：https://blog.csdn.net/weixin_42392461/article/details/98626526

版权

算法总结专栏收录该内容

6 篇文章 0 订阅

订阅专栏

随机森林算法梳理
集成学习的概念
集成学习（ensemble learning）是时下非常流行的机器学习算法，它本身不是一个单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影，在现实中集成学习也有相当大的作用，它可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中，随机森林，梯度提升树（GBDT），Xgboost等集成算法的身影也随处可见，可见其效果之好，应用之广。
boosting bagging的概念、异同点
bagging :模型独立，互相平行
boosting：模型有序，逐步提升
装袋法的核心思想是构建多个相互独立的评估器，然后对其预测进行平均或多数表决原则来决定集成评估器的结
果。装袋法的代表模型就是随机森林。
提升法中，基评估器是相关的，是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的样本
进行预测，从而构成一个强评估器。提升法的代表模型有Adaboost和梯度提升树。
理解不同的结合策略(平均法，投票法，学习法)
随机森林的优缺点
RF的主要优点有：
 1.当存在分类不平衡的情况时，随机森林能够提供平衡数据集误
差的有效方法；
 2.训练和预测速度快；
 3.对训练数据的容错能力强，是一种有效估计缺失值的方法，当
数据集中有大比例的数据缺失时仍然可以保证准确率；
 4.能够有效地处理大的数据集；
 5.它能够处理很高维度的数据，并且不用做特征选择
 6.能够在分类的过程中可以生成一个泛化误差的内部无偏估计
(OOB error可以作为泛化误差的一个估计)；
 7.能够检测到特征之间的相互影响以及重要性程度；
 8.不容易出现过度拟合（两个随机性）；
 9.实现简单容易并行化。
RF的主要缺点有：
 1.对于许多统计建模者来说，随机森林给人的感觉像是一个黑盒
子，你几乎无法控制模型内部的运行，只能在不同的参数和随机
种子之间进行尝试，它剥夺了商业规则的易解释性。
 2.取值划分比较多的特征容易对RF的决策产生更大的影响，从而
影响拟合的模型的效果。
 3.单棵决策树的预测效果很差：由于随机选择部分属性，使得单
棵决策树的预测效果较差。
 4.随机森林在解决回归问题时并没有像它在分类中表现的那么好，
这是因为它并不能给出一个连续型的输出。当进行回归时，随机
森林不能够作出超越训练集数据范围的预测，这可能导致在对某
些还有特定噪声的数据进行建模时出现过度拟合。
随机森林在sklearn中的参数解释
criterion 不纯度的衡量指标，有基尼系数和信息熵两种选择
max_depth 树的最大深度，超过最大深度的树枝都会被剪掉
min_samples_leaf
一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样
本，否则分枝就不会发生
min_samples_split
一个节点必须要包含至少min_samples_split个训练样本，这个节点才允许被分
枝，否则分枝就不会发生
max_features
max_features限制分枝时考虑的特征个数，超过限制个数的特征都会被舍弃，
默认值为总特征个数开平方取整
min_impurity_decrease 限制信息增益的大小，信息增益小于设定数值的分枝不会发生
随机森林的应用场景
主要用于分类中，虽然随机森林也能做回归，但分类效果比较好。