思想介绍:
弱学习器对样本进行分类,分类后又分正确,有分错误,adaboost会把上次弱学习器分类错误的样本权重增加,把判对的样本的权重下降,再次训练下一个弱学习器这期间再把判错的权重增加,判对的权重减小。以此类推
分类前没条样本的权重是1/N
1.如何获得不同的g(x)?
随机森林通过有放回的采样得到不同的Data生成g(x)决策树
adaboost一般是采用决策桩(二叉树)
2.什么是数据的权重?
对于同一个算法,训练集不同生成的模型一bagging)
训练集相同,我们调整训练集中数据的权重,生成的模型也一定相同。(adaboost)
对于同一个模型,输入数据的权重不同模型预测的正确率也不同。
可以通过调整输入数据的权重,让本来还不错的分类器正确率达到1/2,1/2的概率对于分类来说是最差的概率,那么调整到最差的概率后,下次分类模型就可以更重视这个分类器。