Coursera - 机器学习技法 - 课程笔记 - Week 11

最新推荐文章于 2024-10-20 19:52:38 发布

支锦铭

最新推荐文章于 2024-10-20 19:52:38 发布

阅读量159

点赞数

分类专栏： Cousera-课程笔记文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/cary_leo/article/details/105942459

版权

Cousera-课程笔记专栏收录该内容

141 篇文章 17 订阅

订阅专栏

Gradient Boosting Decision Tree

AdaBoost Decision Tree

将AdaBoost应用到DT：对数据加权，对加权数据学习 $\operatorname{DTree}(\mathcal D, \bold u^t)$
不像AdaBoost那样将算法进行加权修改？
- 调整数据在数据集中出现的比例——按权重比例采样得到 $\tilde{\mathcal D}_t$
对于完全生成决策树，往往对于既有数据，所有数据不同， $E_{in} = 0$
- 投票系数如果按照 $\alpha_t = \sqrt{\frac {1 - \epsilon_t}{\epsilon_t}}$ ，会得到无穷大系数
- 需要对DT进行剪枝——限制树的高度
- 基于部分数据而非全部数据——采样过程已经实现
- 一个特例：树限制为1层（纯度由分类损失）——AdaBoost-Stump

Optimization of AdaBoost

权重变更： $u_n^{(t + 1)} = u_n^{(t)} \cdot m_t^{-y_n g_t(\bold x_n)} = u_n^{(t)} \cdot \exp (-y_n \alpha_t g_t(\bold x_n))$
$T$ 次训练整合：

$u_n^{(t + 1)} = u_n^{(t)} \cdot \prod _{t = 1}^T \exp (-y_n \alpha_t g_t(\bold x_n)) = \frac 1N \exp (-y_n \sum_{t = 1}^T \alpha_t g_t(\bold x_n))$

最终的 $G(\bold x_n) = \operatorname{sign}(\sum_t \alpha_t g_t(\bold x_n))$
- 括号内称之为投票分数
类比SVM，投票分数乘上 $y_n$ ，表示符号和非归一化的间隔
- 我们希望间隔越来越大
- 那么权重更新的指数项就会更小
- 因此整体权重就会更小—— $\sum_n u_N^{(t)}$ 越来越小
AdaBoost的最小化目标函数：

$\sum_{n = 1}^N u_n^{(t + 1)} = \frac 1N \sum_{n = 1}^N \exp (-y_n \sum_{t = 1}^T \alpha_t g_t(\bold x_n))$

令 $\sum_t \alpha_t g_t(\bold x_n)$ ，那么上式的 $err_{ADA} = \exp(-ys)$ 称为指数loss，为0/1 loss的上界——做好AdaBoost可以想办法把0/1 loss做的好
梯度下降优化：找到一个“方向” $g_t$ （下述中的 $h$ ），以优化：

$\min_h \quad \hat E_{ADA} = \frac 1N \sum_{n = 1}^N \exp \left(-y_n \left(\sum_{\tau = 1}^{t - 1} \alpha_{\tau} g_{\tau}(\bold x_n) + \eta h(\bold x_n) \right) \right)$

带入上述的权重更新公式以及泰勒展开得到近似结果：

$\min_h \quad \hat E_{ADA} \approx \sum_{n = 1}^N u_n^{(t)} - \eta \sum_{n = 1}^N u_n^{(t)} y_n h(\bold x_n)$

最小化目标（后一项）：

$\min_h \quad \sum_{n = 1}^N u_n^{(t)} y_n h(\bold x_n)$

对二分类任务， $h(\bold x)$ 取值为 ${-1, +1\}$ ，因此有（后一项省去了样本数 $N$ ）：

$\sum_{n = 1}^N u_n^{(t)} y_n h(\bold x_n) = -\sum_n u_n^{(t)} + 2 E_{in}^{u^{(t)}}(h)$

从AdaBoost的算法中找出的好的 $g_t$ ，也就对应着GD优化中的 $h$
AdaBoost找到最理想的 $g_t$ 之后，是否可以最大化 $\eta$ ？（系数）
- 最优化的 $\eta_t$ 相比于固定的 $\eta$ 是贪婪地更快的
- 正例 $u_n^{(t)} \exp(- \eta)$
- 反例 $u_n^{(t)} \exp(+ \eta)$
改进目标：

$\hat E_{ADA} = \left( \sum_{n = 1}^N u_n^{(t)} \right) \cdot \left( (1 - \epsilon_t) \exp(-\eta) + \epsilon_t \exp(+\eta) \right)$

上式对 $\eta$ 求导，得到最优 $\eta_y = \ln \sqrt{\frac {1 - \epsilon_t} {\epsilon_t}} = \alpha_t$
AdaBoost：函数近似梯度的最大下降

Gradient Boosting

梯度下降角度的AdaBoost的形式化（二元输出假设函数）：

$\min_{\eta} \min_{h} \quad \frac 1N \sum_{n = 1}^N \exp \left(-y_n \left(\sum_{\tau = 1}^{t - 1} \alpha_{\tau} g_{\tau}(\bold x_n) + \eta h(\bold x_n) \right) \right)$

通用化梯度Boost：

$\min_{\eta} \min_{h} \quad \frac 1N \sum_{n = 1}^N \operatorname{err} \left(\sum_{\tau = 1}^{t - 1} \alpha_{\tau} g_{\tau}(\bold x_n) + \eta h(\bold x_n) , y_n \right)$

上式中， $h$ 可以改进为任意的假设函数，通常为实值输出函数
回归任务： $err(s, y) = (s - y)^2$
- 泰勒展开后近似： $\min_h \ constant + \frac \eta N \sum_n 2 h(\bold x_n) (s_n - y_n)$
- $h$ 的幅度由 $\eta$ 控制
- 避免够大的幅度，引入惩罚项： $\min_h \ constant + \frac \eta N \sum_n (2 h(\bold x_n) (s_n - y_n) + h(\bold x_n))^2$
- 化简： $\min_h \ constant + \frac \eta N \sum_n (constant + (h(\bold x_n) - (y_n - s_n)))^2)$
- 目标，新的 $h$ 要尽可能拟合现有的残差，即在 $\{ \bold x_n, y_n - s_n\}$ 上的回归
探索 $\eta$ ： $\min \ \frac 1N \sum_n (s_n + \eta g_t(\bold x_n) - y_n)^2$
- 进一步化简： $\min \ \frac 1N \sum_n ((y_n - s_n) - \eta g_t(\bold x_n))^2$
- 另外一个单变量线性回归回归，在 ${g_t \ input, residual\}$ 上的回归
总结：GBDT，每一次迭代
- 由回归算法完成对 $\{ \bold x_n, y_n - s_n\}$ 的最小平方误差回归（初始化分数为0）
  - 这里需要考虑对数据的采样和CART的剪枝
- 计算系数 $\alpha_t$ ，通过对 $\{ g_t(\bold x_n), y_n - s_n \}$ 的先行回归获得
- 更新分数的计算规则 $s_n \gets s_n + \alpha_t g_t(\bold x_n)$
- 迭代结束，返回最终的 $G$