目录
1. Adaboost
- 处理分类问题的思想
给定训练集,寻找比较粗糙的分类规则/弱分类器 要比寻找精确的分类规则要简单得多。从弱学习算法出发,反复学习,得 到一系列弱分类器;然后组合这些弱分类器,构成一个强分类器。
- 基本做法
改变训练数据的概率(权重)分布(每个训练样本的采样频率),基于不同的训练数据的分布,调用弱学习算法来学习一系列分类器。
- 两个问题
1)每轮训练中,如何改变训练数据的权值或分布?
提高那些被前一轮弱分类器分错的样本的权重,降低已经被正确分类的样本的权重。错分的样本将在下一轮弱分类器中得到更多关注。
2)如何将一系列的弱分类器组合成一个强分类器?
采用加权表决的方法。具体地,加大分类错误率较小的弱分类器的权重,使其在表决中起更大的作用。
- 详细算法流程
输入训练数据集:
其中是样本特征向量,(二分类)。
输入一个弱学习算法。
1. 初始化训练数据的权值分布。
假设训练数据集具有均匀分布的权重,也就是说,原始数据集T的每个样本在新数据集中都会被采样,每个样本的采样频数,除以数据量n得到权值分布.保证第一步能在原始数据上学习到基本分类器。
2. 在权值分布为的训练集上,学习得到基本分类器,(在训练集上的分类错误率最低)
1)计算的分类错误率:
上述两种形式是等价的,当