Coursera - 机器学习基石 - 课程笔记 - Week 14

最新推荐文章于 2024-05-27 16:22:26 发布

支锦铭

最新推荐文章于 2024-05-27 16:22:26 发布

阅读量164

点赞数

分类专栏： Cousera-课程笔记文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/cary_leo/article/details/105911387

版权

Cousera-课程笔记专栏收录该内容

141 篇文章 17 订阅

订阅专栏

Regularization

Regularized Hypothesis Set

过拟合线性通过正则化约束到更好的拟合状态
通过正则化从高阶拟合转换为低阶拟合
- 低阶多项式可以视为高阶系数均为极小值的高阶多项式
- 高阶转换为低阶：向高阶系数施加限制
优化目标变成含约束的优化问题——高阶系数非常小
可以扩展解决问题的视野——任意k个系数非常小，可以有更好的性能
后者比前者相对宽松，但是要比完全的高阶假设更精确一点，相对缓解了overfitting的问题
一个难题：约束离散化，难以优化NP-hard
- 软约束： $\|\bold{w}\|^2 \le C$
- 软约束优化问题与原优化问题有一定的重叠
- 软约束问题在不同的 $C$ 之间也有重叠

Weight Decay Regularization

对线性回归，将正则化优化目标写成矩阵形式（拉格朗日优化）：

$\min_{\bold w \in \mathbb R^{Q+1}} E_{in}(\bold w) = \frac{1}{N}(\bold Z \bold w - \bold y)^\mathrm{T}(\bold Z \bold w - \bold y) \quad \mathrm{s.t.} \bold w^\mathrm{T} \bold w \le C$

正则化最优解情形： $-\nabla E_{in}(\bold w_{REG}) \propto \bold w_{REG}$
- 目标优化问题（假设 $\lambda > 0$ ）： $\nabla E_{in}(\bold w_{REG}) + \frac{2\lambda}{N} \bold w_{REG} = 0$
  - 即： $\frac{2}{N}(\bold Z^\mathrm{T} \bold Z \bold w_{REG} - \bold Z^\mathrm{T} \bold y) + \frac{2\lambda}{N} \bold w_{REG} = 0$
  - 可以得到最优解： $\bold w_{REG} \gets (\bold Z^\mathrm{T} \bold Z + \lambda \bold I)^{-1} \bold Z^\mathrm{T} \bold y$
- 此即岭回归（ridge regression）
对应的优化目标（积分）： $E_{in}(\bold w) + \frac{\lambda}{N} \bold w^\mathrm{T} \bold w$
后一项就称为正则项，简化了优化过程
$\lambda$ 视为超参数，其大小反映了正则约束的作用，越大约束性越强，将权重变得“小”
对于过高阶多项式假设，不同阶权重采用不同的正则化程度——Legendre多项式

Regularization and VC Theory

正则项表示了一个假设的复杂性
VC边界表示了整个假设集合本身的复杂性
$E_{aug}$ 是比 $E_{in}$ 更好的代理
正则项的使用是将假设集合与算法本身共同考虑，这样的情形下，使用的VC维度要比理论的VC维度要小很多 $d_{EFF}(\mathcal{H}, \mathcal{A})$
更大的 $\lambda$ -> 更小的 $C$ -> 更小的 $\mathcal{H}(C)$ -> 更小的 $d_{EFF}$

General Regularization

更好的正则项：
- 目标性质依赖
- 朝着更平滑或者更简单的方向（噪声都是不平滑的）
- 易于优化
- 本身很差？调整 $\lambda$ 来控制正则项的作用
和error measure同样的三个原则
L2正则项： $\|\bold w\|^2_2$
- 凸，处处可微
- 易于优化
L1正则项： $\|\bold w\|_1$
- 凸，并不是处处可微
- 解常会是稀疏的（更快）
$\lambda$ 的选择
- 噪声越大， $\lambda$ 也应该越大
- 噪声未知？

支锦铭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Coursera - 机器学习基石 - 课程笔记 - Week 14

RegularizationRegularized Hypothesis Set过拟合线性通过正则化约束到更好的拟合状态通过正则化从高阶拟合转换为低阶拟合低阶多项式可以视为高阶系数均为极小值的高阶多项式高阶转换为低阶：向高阶系数施加限制优化目标变成含约束的优化问题——高阶系数非常小可以扩展解决问题的视野——任意k个系数非常小，可以有更好的性能后者比前者相对宽松，但是要比完全...
复制链接

扫一扫