集成学习:
有效的前提:
1. 每个弱分类器的错误率不能高于0.5。
2.弱分类器之间的性能要有较大的差别,否则集成效果不是很好。
集成学习的实验性结论:
Boosting方法的集成分类器效果明显优于bagging,但是在某些数据集boosting算法的效果还不如单个分类器的。
使用随机化的人工神经网络初始权值来进行集成的方法往往能够取得和bagging同样好的效果。
Boosting算法一定程度上依赖而数据集,而bagging对数据集的依赖没有那么明显。
Boosting算法不仅能够减少偏差还能减少方差,但bagging算法智能减少方差,对偏差的减少作用不大。
Boost也许在噪声数据上有坏的表现,Bagging没有这个问题。
AdaBoots可能会失败:
1.假设太复杂(过拟合)
2.假设太弱 (at->0很快)
没有拟合完全
边界条件太低->过拟合
AdaBoots对噪声的处理很好
AdaBoost
alpha则是一个可正可负的数,和错误率的变化是相反的,错误率越小,alpha越大。若错误率小于1/2,则alpha>0,此刻,对于正确分类的样本,样本权值减小,对于误分类的样本,权值加大。如果错误率大于1/2,则alpha<0,此刻,对于正确分类的样本,权值加大,对于误分类的样本,权值减小。
D_tree 、SVM、贝叶斯的集成学习:
集成学习通常适用于不稳定的学习算法,例如决策树,人工神经网络等。朴素贝叶斯是一种稳定的学习方法。学习算法的稳定性对于最后的结果有很大的影响。对于不稳定的学习算法,如神经网络、决策树,集成学习能够提高预测的准确度,但对于稳定的学习算法,集成学习的效果并不明显,有事甚至会降低预测的准确度。