随机森林算法梳理
集成学习的概念
集成学习(ensemble learning)是时下非常流行的机器学习算法,它本身不是一个单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。基本上所有的机器学习领域都可以看到集成学习的身影,在现实中集成学习也有相当大的作用,它可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。在现在的各种算法竞赛中,随机森林,梯度提升树(GBDT),Xgboost等集成算法的身影也随处可见,可见其效果之好,应用之广。
boosting bagging的概念、异同点
bagging :模型独立,互相平行
boosting:模型有序,逐步提升
装袋法的核心思想是构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估器的结
果。装袋法的代表模型就是随机森林。
提升法中,基评估器是相关的,是按顺序一一构建的。其核心思想是结合弱评估器的力量一次次对难以评估的样本
进行预测,从而构成一个强评估器。提升法的代表模型有Adaboost和梯度提升树。
理解不同的结合策略(平均法,投票法,学习法)
随机森林的优缺点
RF的主要优点有:
1.当存在分类不平衡的情况时,随机森林能够提供平衡数据集误
差的有效方法;
2.训练和预测速度快;
3.对训练数据的容错能力强,是一种有效估计缺失值的方法,当
数据集中有大比例的数据缺失时仍然可以保证准确率;
4.能够有效地处理大的数据集;
5.它能够处理很高维度的数据,并且不用做特征选择
6.能够在分类的过程中可以生成一个泛化误差的内部无偏估计
(OOB error可以作为泛化误差的一个估计);
7.能够检测到特征之间的相互影响以及重要性程度;
8.不容易出现过度拟合(两个随机性);
9.实现简单容易并行化。
RF的主要缺点有:
1.对于许多统计建模者来说,随机森林给人的感觉像是一个黑盒
子,你几乎无法控制模型内部的运行,只能在不同的参数和随机
种子之间进行尝试,它剥夺了商业规则的易解释性。
2.取值划分比较多的特征容易对RF的决策产生更大的影响,从而
影响拟合的模型的效果。
3.单棵决策树的预测效果很差:由于随机选择部分属性,使得单
棵决策树的预测效果较差。
4.随机森林在解决回归问题时并没有像它在分类中表现的那么好,
这是因为它并不能给出一个连续型的输出。当进行回归时,随机
森林不能够作出超越训练集数据范围的预测,这可能导致在对某
些还有特定噪声的数据进行建模时出现过度拟合。
随机森林在sklearn中的参数解释
criterion 不纯度的衡量指标,有基尼系数和信息熵两种选择
max_depth 树的最大深度,超过最大深度的树枝都会被剪掉
min_samples_leaf
一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练样
本,否则分枝就不会发生
min_samples_split
一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分
枝,否则分枝就不会发生
max_features
max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃,
默认值为总特征个数开平方取整
min_impurity_decrease 限制信息增益的大小,信息增益小于设定数值的分枝不会发生
随机森林的应用场景
主要用于分类中,虽然随机森林也能做回归,但分类效果比较好。
Task1 随机森林
最新推荐文章于 2021-10-24 00:14:24 发布