【机器学习】集成学习

【集成学习】
集成学习就是通过构建并整合多棵分类树来完成分类任务。
要想获得好的集成树,个体分类树应该“好而不同”,即个体分类树要有一定的准确性,即预测性能不能太差,同时要有多样性,即个体分类树之间要有差异。
根据个体分类树的生成方式,目前集成树的产生方法大致可分为两大类:
1.个体分类树之间不存在强依赖关系、可同时产生的并行化方法,比如Bagging和随机森林;
2.个体分类树之间存在强依赖关系,必须串行生成的序列化方法,比如Boosting。

【Bagging分类】
Bagging主要关注降低预测模型的方差。
思想:从总体中抽取多个训练集,对每个训练集分别建立预测模型,再对由此得到的全部预测模型求平均,得到一个集成模型。既可以用B个独立的训练集训练出B个模型,然后求平均,得到一个低方差的模型。在分类问题中,对于一个给定的观测,我们先记录全部B个分类树对这个观测的预测结果,然后采用投票法进行预测输出。也就是说,将B个预测结果中出现频率最高的类别作为最后的预测结果。
在实际中,不容易得到多个训练集,自助抽样法(Bootstrap,从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中)可以解决这个问题。
实践表明,B的大小不是一个对Bagging起决定作用的参数,B很大时也不会出现过拟合。往往取足够大的B值,使分类错误率能够大幅降低并稳定下来。
由于Bagging主要关注降低预测模型的方差,因此比未剪枝决策树、神经网络等易受样本扰动的学习器在模型预测的准确性上更优。但是Bagging对预

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值