Coursera - 机器学习技法 - 课程笔记 - Week 7

最新推荐文章于 2024-08-18 21:31:01 发布

支锦铭

最新推荐文章于 2024-08-18 21:31:01 发布

阅读量161

点赞数

分类专栏： Cousera-课程笔记文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/cary_leo/article/details/105926436

版权

141 篇文章 17 订阅

订阅专栏

Blending and Bagging

$G(\bold x) = \operatorname{sign} \left( \sum_{t = 1}^T 1 \cdot g_t(\bold x) \right)$

$G(\bold x) = \frac 1 T \sum_{t = 1}^T g_t(\bold x)$

$\operatorname{avg}(E_{out} (g_t)) = \operatorname{avg}(\mathcal E(g_t - G)^2) + E_{out}(G) \ge E_{out}(G)$

$G(\bold x) = \operatorname{sign} \left (\sum_{t = 1}^T \alpha_t \cdot g_t(\bold x) \right),\ \alpha_t \ge 0$

计得到好的 $\alpha_t$ ： $\min_{\alpha_t \ge 0} E_{in}(\alpha)$
linear blending = linear model + hypotheses as transform + weight constraints
实际上，限制 $\alpha_t$ 非负并不必要，因为负的权重实际对应一个反过来使用的分类器，可能得到一个非常好的效果（如果本身非常烂的话）
但是在使用 $E_{in}$ 进行选择的时候，会增加模型的复杂度，很容易过拟合——使用 $E_{val}$
选择 $g^-$ （即剔除validation的数据训练得到的模型），根据 $E_{val}$ 确定权重
利用若干个 $g^-$ ，实际上就是在将原始输入 $\bold x$ 扩展到一个新的空间 $\Phi(\bold x) = \left( g^-_1(\bold x), g^-_2(\bold x), \ldots, g^-_n(\bold x) \right)$
利用上述转换后的样本计算权重 $\alpha$ ，然后得到最终模型 $G(\bold x) = \operatorname{LIN(\alpha^{\mathrm{T}} \Phi(\bold x))}$
拓展：非线性的Blending（Stacking）
- 使用任何函数形式，根据得到的样本计算： $\tilde g = \operatorname{Any}(\Phi(x), y_n)$
- 从而得到最终模型： $G(\bold x) = \tilde g(\Phi(\bold x))$
- 很强大，可以实现根据条件调整权重
- 有比较大的过拟合风险

如何得到不同的 $g_t$
- 来自不同的模型
- 来自不同的训练参数
- 来自不同的算法随机性（初始化等）
- 来自不同的数据随机性（交叉验证产生 $g^-$ ）
Bagging：利用数据随机性，不使用 $g^-$ 产生 $\bar g$
bootstraping：从现有数据 $D$ 中均有放回随机采样 $N$ 个样本
- 不再从一个分布采样样本
- 而是从一个现有数据集中采样得到子集
- 元算法
只要算法对数据随机性敏感，bootstrapping就会表现很好

关注

专栏目录