集成学习(一)

ensemble learning(集成学习)

ensemble 物理学中称为系综,机器学习中多翻译为集成学习,定义为:通过构建并结合多个学习器来完成学习任务。

别名:multi-classifier system;committee-based learning,其中笔者认为committee-based learning 较好的表达来它的原理。

知识结构图:

将\(A_1,A_2,A_3.A_4\)四个分类学习器,构成一个整体,通过一定的方法,(比如投票法 voting)产生一种新的组合,使组合学习器获得更好的性能。

比如周志华老师书中的集成性能提升的例子:

.测试例1测试例2测试例3
\(h_1\)\(\surd\)\(\surd\)\(\times\)
\(h_2\)\(\times\)\(\surd\)\(\surd\)
\(h_3\)\(\surd\)\(\times\)\(\surd\)
集成\(\surd\)\(\surd\)\(\surd\)

可见三个不太好(66.6%精度)的单分类器集成后可以得到100%的精度,可谓“三个臭皮匠顶个诸葛亮”,故而,集成学习的关键在于集成个体应“好而不同“…..

基本概念

(1) base learner(基学习器):同质集成中的个体学习器,相应的学习算法为“基学习算法”(base learning algorithm).

(2) heterogenous (异质):个体学习器由不同的学习算法生成,此时,成为“组件学习器”(component learner).

原理:

理解 :“好而不同”

考虑二分类问题, y∈{-1,+1} 和真实函数f。

错误率:

P(hixf(x))=ϵ P ( h i ( x ) ≠ f ( x ) ) = ϵ

集成所有基分类器,若有超过半数的基分类器正确,则集成分类就正确:

H(x)=sign(i=1)T(hix) H ( x ) = s i g n ( ∑ ( i = 1 ) T ( h i ( x ) ) )

假设基分类器的错误率相互独立,则由Hoeffding不等式可知,集成错误率为:

P(H(x)fx)=k=0T/2Tk(1ϵ)kϵTke(12(12ϵ)2) P ( H ( x ) ≠ f ( x ) ) = ∑ k = 0 ⌊ T / 2 ⌋ ( T k ) ( 1 − ϵ ) k ϵ T − k ≤ e ( − 1 2 ( 1 − 2 ϵ ) 2 )

如何自行推导集成错误率??(提示Hoeffding不等式)

今天遇到的两个matlab安装问题:

昨天和今天遇到一个问题,和集成学习无关,在使用学校的Matlab安装软件时一直错误,报错“”license manager Error –9”试了网上给出的方法都不行,晚上时,吧最后一步的用户名改成“”Administrator”,竟然解决了,现在还不知道是为什么。记录一下。留作以后后人参考。现在遗留的一个问题是:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值