数据挖掘学习笔记9-集成算法

集成学习:有策略的生成分类器,有策略的将他们合并在一起。
目的:
1.提高单个模型的准确性
2.减少选到较弱的模型的可能
用不同的参数、数据集、特征集训练出不同的分类器,每一个分类器很弱,再用某种方式合并。
bagging(bootstrap aggregation):
对样本再进行采样,用随机采样得到的数据训练分类器(并行),对任意输入,将所有分类器的结果进行投票(所有分类器权重相同),少数服从多数,可以降低模型的方差
随机森林(RF)算法效果通常不错
stacking:在bagging的基础上,将所有分类器的结果作为输入,再训练一个分类器,相当于训练基础分类器的权重
boosting:
串行训练分类器,先选取一部分样本训练第一个分类器,用所有样本测试该分类器,给此分类器分错的样本加权重,分对的样本减权,以此迭代训练后面的分类器(样本有权重)
基础分类器可以很弱(准确率大于50%即可)
在这里插入图片描述
adaboosting:数据挖掘十大算法之一
误差上届可以越来越小,且分类器的权重α是推导出来的1/2log((1-e)/e)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

可用数学证明模型的误差上届趋近于0
总结:
1.简洁,几乎没有参数
2.优化α是用局部最优的方法(贪心算法)
3.不容易出现过学习
4.模型太多(一般基础分类器为50),可解释性不强

region boosting:
动态权重:根据输入不同会有不同的权重
额外有一个可信度模型(也是一种分类器),来针对不同输入,给出不同的权重

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值