随机森林算法梳理

随机森林是一种集成学习方法,通过结合多个决策树提高分类准确度。它利用Bootstrap聚合(Bagging)降低模型方差,通过随机特征选择和随机样本构建不相关的树。随机森林在sklearn库中有实现,广泛应用于分类、回归和离群点检测,特别是在数据维度较低、准确性要求高的场景。
摘要由CSDN通过智能技术生成

 

1.集成学习(Ensemble Learning)

在统计学或者机器学习中,集成学习是通过使用多个学习算法以获得比任意单个学习算法更好的性能。它仅由一组具体的有限的可替代模型组成而不同于统计学中的统计中的系综(statistical ensemble)常常是无限个。

集成学习本身是一种监督学习算法,因为它可以再训练后用于预测。因此,训练后的集成模型代表了一个假设,但这个假设不一定被包含在构建它的模型的假设空间内。因此,可以证明集成学习在它们可以表示的功能方面具有更大的灵活性。理论上,这种灵活性使他们能够比单一模型更多地过拟合训练数据,但在实践中,一些集成算法(如Bagging算法)倾向于减少对训练数据过拟合相关的问题。

根据经验,当模型之间存在显著差异时,集成往往会产生更好的结果。因此,许多集成方法试图促进它们组合的模型之间的多样性。尽管可能不是直观的,更随机的算法(如随机决策树)可用于产生比非常有意识的算法(如熵减少决策树)更强大的集成模型。然而,使用各种强大的学习算法已被证明是比使用试图愚弄模型以促进多样性的技术更有效。

 

2.学习器(Learner)

一个学习器learner可以分为弱学习器weak learner 强学习器strong learner。弱学习器的分类效果略优于随即猜测的学习器,强学习器的分类效果接近于真实分类。

 

3.常见的集成学习类型

Bootstrap聚合(Bagging)

Bootstrap聚合(Bootstrap Aggregating,Bagging)使集成模型中的每个模型在投票时具有相同的权重。为了减小模型方差,Baging使用随机抽取的子训练集训练集成中的每个模型。例如,随机森林算法将随机决策树与Bagging相结合,以实现更高的分类准确度

Boosting

Boosting通过在训练新模型实例时更注重先前模型错误分类的实例来增量构建集成模型。在某些情况下,Boosting已被证明比Bagging可以得到更好的准确率,不过它也更倾向于对训练数据过拟合。目前比较常见的增强实现有AdaBoost等算法。

Stacking</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值