集成学习

参考文献:http://blog.csdn.net/chenhongc/article/details/9404583


集成学习通过构建并结合多个学习器来完成学习任务。先产生个体学习器,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据中产生,例如决策树、BP神经网络。


弱学习:准确率仅比随机猜测略高的学习算法称为弱学习算法。

强学习:准确率很高并能在多项式时间内完成的学习算法称为强学习算法。

集成学习方法大致可分为两大类:

1、个体学习器件存在强依赖关系、必须串行生成的序列化方法,如boosting算法;

2、个体学习器间不存在强依赖关系、可同时生成的并行化方法,如bagging和随机森林(random forest,RF)。


一、决策树:

1、决策树分类

回归树:RMSE(root mean square error,均方根误差)

分类树:信息熵、信息增益、基尼系数

2、ID3算法

参考:www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html 


3、C4.5

参考:www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html


4、CART

参考:http://blog.csdn.net/acdreamers/article/details/44664481   (包括Gini指数)

注意:Gini指数越低,越有利于划分

5、剪枝




二、随机森林

     随机森林是一种多功能的机器学习算法,能够执行回归和分类、降维的任务。

优点:


综述:



三、bootstrap



四、Bagging

用bootstrap抽样方法训练基分类器,然后集成在一起


五、boosting(下面讲adaboost)

参考文献:http://blog.csdn.net/dark_scope/article/details/14103983

机器学习》(周志华) 8.2小节: boosting

adaboost算法本身是通过改变数据分布实现的,它根据每次训练集之中的每个样本分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改权值的新数据传送给下层分类器进行训练,然后将每次训练得到的分类器融合起来,作为最后的决策分类器。



六、Bagging、RF和boosting(adaboost)的区别



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值