文章目录
第八章 提升方法
8.1 提升方法AdaBoost法
8.1.1 PAC学习框架
输入: X \mathcal{X} X
输出: Y \mathcal{Y} Y
概念类(类似于映射):
C \mathcal{C} C :由所有想要学习的概念所组成的集合
H \mathcal{H} H:所有可能的概念类
观测: T \mathcal{T} T={ ( x 1 , y 1 ) , . . . , ( x m , y m ) (x_1,y_1),...,(x_m,y_m) (x1,y1),...,(xm,ym)}
学习: S \mathcal{S} S={ ( x 1 , y 1 ) , . . . , ( x m , y m ) (x_1,y_1),...,(x_m,y_m) (x1,y1),...,(xm,ym)}
泛化误差: R ( h ) = P r X ∼ D [ h ( x ) ≠ c ( x ) ] \mathcal{R}(h)=Pr_{\mathcal{X}\thicksim\mathcal{D}}[h(x)\neq c(x)] R(h)=PrX∼D[h(x)=c(x)](错误率)
强可学习:PAC
我们可以借助弱可学习去构造强可学习。
提升方法的内核
- 弱学习器是什么样子
- 如何将弱学习器组合为强学习器
8.1.2 AdaBoost算法
1.假设训练集具有均匀的权值分布,在原始数据上学习第一个分类器 G 1 ( x ) G_1(x) G1(x)
2.AdaBoost反复学习学习器,在每一轮m=1,2,…,M 顺序的执行一下操作
(a)使用当前的加权训练数据集 D m D_m Dm,学习分类器 G m ( x ) G_m(x) Gm(x)
(b) 计算分类器在加权训练数据集上的分类误差率
(c)计算分类器的系数 α m \alpha_m αm,其表示该分类器在最终分类器中的重要性。
(d)更新权值分布为下一轮做准备
误分类的样本的权值不断扩大,正确分类样本的权值不断缩小。
3.线性组合 f ( x ) f(x) f(x)实现 M M M个分类器的加权表决。
8.2 AdaBoost算法的训练误差分析
8.3 AdaBoost算法解释
逐步回归
-
逐步向前
Y = β + ϵ Y=\beta+\epsilon Y=β+ϵ ------零模型 f 0 ( x ; β ) f_0(x;\beta) f0(x;β)
$Y=\beta_0+\beta_1x^{(j)}+\epsilon f_1(x;\beta) $
$Y=\beta_0+\beta_1x{(2)}+\beta_1x{(j)}+\epsilon f_2(x;\beta) $
以此类推
-
逐步先向后
$Y=\beta_0+\beta_1x{(2)}+\beta_1x{(j)}+···+\beta_1x^{§}+\epsilon f_p(x;\beta) $
逐步剔除变量
可加模型
8.3.1 前向分布算法
8.3.2 前向分步算法和AdaBoost
8.4 提升树
8.4.1 提升树模型
8.4.2 提升树算法
8.4.3 梯度提升方法
利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值,