上一章《adaboost深入剖析(上)》中,我对于adaboost是什么,怎么用做了一个简单介绍,并分享了一个简单的例子。那么在这一部分我想和大家深入分析关于Adaboost算法的误差界问题。
我认为这个问题触及adaboost的灵魂本质,也就是讲,通过了解这个问题,你就能够知道为什么通过adaboost这种集成学习的方法,原本很烂的一堆弱分类器就可以形成一个超级强的强分类器。
adaboost的本质就是他能在不断地学习过程中融入新的分类器,并且指数级速度的降低误差。
首先最后的误差可以表示为:
当的时候,我们可以得到
,
所以再推一步可以得到
当的时候,我们可以得到
,
所以再推一步可以得到
所以我们可以得到
又因为
所以有了下面的推导
也就是说最后得出这个结论
继续往下推
我们得出这个结论,也就是说
通过泰勒展开,又可以证明下面这个不等式
则如果存在一个,对于所有的
有
,上式可以继续化简为
最终我们的结论是,也就是说符合条件的弱分类器越来越多,最终我们的误差会呈现出一个e的指数状态的减少。
好了,着急去上课,下这一部分先写到这里,还有一部分公式没有来得及敲,贴的截图,晚上下课后我会一起修改了