7-集成学习 Adaboost

7-集成学习 Adaboost

一个集成样本不准 另一个准 运用好的样本 性能就能得到提升

image-20221104191449608

Bagging

装袋算法

多个决策树会互补

通过去的分类性能会好于单个分类器 对每个基分类器,多个模型分类同时预测输出然后利用集成器进行集成输出

image-20221104192213627

Bagging;又放回的训练集 取众数(投票)至于Bagging训练集取多少次 取决于调参

Bagging:要求不稳定的分类方法:决策树,神经网络算法

不稳定:数据集小的变动能够使得分类结果的显著的变动,列出所有的模型 计算所有的轮数

Bagging特点:

通过降低基分类器的方差改善了泛化误差。

Bagging的性能依赖于基分类器的稳定性:

如果基分类器不稳定(决策树 神经网络)装袋有助于降低训练数据的随机波动导致的误差 稳定算法bagging的性能不会有明显改善

由于每一个样本被选中的概率相同,因此袋装并不侧重于训练数据集中的任何特定实例,因此对于噪声数据,bagging不会太受过分拟合的影响

Boosting

Boosting是一个顺序过程,每个后续模型都会尝试纠正先前模型的错误。后续的模型依赖于之前的模型

第一步:从原始数据集创建一个子集

第二步:最初,所有的数据点都具有相同的权重

第三步:在此子集上创建基础模型

第四步:该模型用于对整个数据集进行预测

最终模型是所有模型的加权平均值 单个模型在整个数据集上表现不佳,但是整体的效果很好

image-20221104205626382

image-20221104205742390

Bagging & Boosting算法区别

image-20221104210056420

Stacking Blending

每次训练一个模型就立刻给他压栈

RF

随机森林 随机有放回的抽样 随机属性选择

image-20221104213525122

随机森林的可解释性比较差,容易发生过拟合 调参需要控制

RF使用

随机森林预测对方是否买车?

分析之后 决策树比随机森林高

gridSearchCV:

image-20221105151937592

随机森林每一次都是最适合的调参去训练

调节最大决策树的个数;注意树的深度,不能太小!!!

样本不够 会导致获得信息不全面 泛化能力不够 需要加强 袋外模型打分具有很强的泛化性能

Adaboost

Adaptive Boosting 自适应提升

很多弱分类器 构成一个强分类器

image-20221105154018648

错误的分类错误 增加权重

image-20221105194250130

GBDT

对树的提升树

决策树可以用于分类 也可以用于回归

GBDT:每一次建立模型是在之前建立模型损失函数的梯度下降方向

是一种迭代的决策树算法,

image-20221105195128051

image-20221105195159189

image-20221105195546194

无监督训练算法的核心就是 没有标签 只需要特征矩阵而其中聚类算法就是一个代表,

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-itXNxrjn-1667828552935)(https://cdn.staticaly.com/gh/hudiework/img@main/image-20221105203409082.png)]

聚类算法常用的两类:层次聚类 K均值聚类

聚类的核心是相似度 或者是距离

K均值聚类算法:

image-20221105211756086

image-20221107201908471

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值