机器学习算法之集成学习:随机森林、GBDT、XGBoost(中)

本文探讨了随机森林构建中的独立性特点,并提出疑问:是否可以在构建子树时考虑已有树的结果。接着介绍了Boosting技术,特别是AdaBoost算法,它是通过迭代生成弱预测模型并加权累加来构建强预测模型。AdaBoost在处理连续值和离散值时表现稳健,但对异常样本敏感。文章还详细阐述了AdaBoost的迭代过程和权重调整机制,并提供了案例分析。
摘要由CSDN通过智能技术生成

在这里插入图片描述

RF scikit-learn相关参数

在这里插入图片描述

随机森林的思考

在随机森林的构建过程中,由于各棵树之间是没有关系的,相对独立的;在构建的过程中,构建第m棵子树的时候,不会考虑前面的m-1棵树。
思考:
如果在构建第m棵子树的时候,考虑到前m-1棵子树的结果,会不会对最终结果产生有益的影响?
各个决策树组成随机森林后,在形成最终结果的时候能不能给定一种既定的决策顺序呢?
(也就是那颗子树先进行决策、那颗子树后进行决策)

Boosting

提升学习(Boosting)是一种机器学习技术,可以用于回归和分类的问题,它每一步产生弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型的生成都是依据损失函数的梯度方式的,那么就称为梯度提升(Gradientboosting);
提升技术的意义:如果一个问题存在弱预测模型,那么可以通过提升技术的办法得到一个强预测模型;
常见的模型有:
Adaboost
Gradient Boosting(GBT/GBDT/GBRT)

在这里插入图片描述

AdaBoost算法原理

Adaptive Boosting是一种迭代算法。每轮迭代中会在训练集上产生一个新的学习器,然后使用该学习器对所有样本进行预测,以评估每个样本的重要性(Informative)。换句话来讲就是,算法会为每个样本赋予一个权重,每次用训练好的学习器标注/预测各个样本,如果某个样本点被预测的越正确,则将其权重降低;否则提高样本的权重。权重越高的样本在下一个迭代训练中所占的比重就越大,也就是说越难区分的样本在训练过程中会变得越重要;整个迭代过程直到错误率足够小或者达到一定的迭代次数为止。
在这里插入图片描述

Adaboost算法

在这里插入图片描述
在这里插入图片描述

AdaBoost算法原理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Adaboost算法构建过程一

在这里插入图片描述

Adaboost算法构建过程二

在这里插入图片描述

Adaboost算法的直观理解

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

案例列表

在这里插入图片描述

推导α求解过程中底数为e的情况下,该案例的最终参数情况:

在这里插入图片描述基于python的sklearn模块中的API创建模拟数据,并进行Adaboost API进行数据分类开发测试

在这里插入图片描述

具体的代码看我的接下来的博客

AdaBoost scikit-learn相关参数
在这里插入图片描述

AdaBoost总结

AdaBoost的优点如下:
可以处理连续值和离散值;
模型的鲁棒性比较强;
解释强,结构简单。
AdaBoost的缺点如下:
对异常样本敏感,异常样本可能会在迭代过程中获得较高的权重值,最终影响模型
效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr Robot

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值