Coursera - 机器学习基石 - 课程笔记 - Week 14

Regularization

Regularized Hypothesis Set

  • 过拟合线性通过正则化约束到更好的拟合状态
  • 通过正则化从高阶拟合转换为低阶拟合
    • 低阶多项式可以视为高阶系数均为极小值的高阶多项式
    • 高阶转换为低阶:向高阶系数施加限制
  • 优化目标变成含约束的优化问题——高阶系数非常小
  • 可以扩展解决问题的视野——任意k个系数非常小,可以有更好的性能
  • 后者比前者相对宽松,但是要比完全的高阶假设更精确一点,相对缓解了overfitting的问题
  • 一个难题:约束离散化,难以优化NP-hard
    • 软约束: ∥ w ∥ 2 ≤ C \|\bold{w}\|^2 \le C w2C
    • 软约束优化问题与原优化问题有一定的重叠
    • 软约束问题在不同的 C C C之间也有重叠

Weight Decay Regularization

  • 对线性回归,将正则化优化目标写成矩阵形式(拉格朗日优化):

min ⁡ w ∈ R Q + 1 E i n ( w ) = 1 N ( Z w − y ) T ( Z w − y ) s . t . w T w ≤ C \min_{\bold w \in \mathbb R^{Q+1}} E_{in}(\bold w) = \frac{1}{N}(\bold Z \bold w - \bold y)^\mathrm{T}(\bold Z \bold w - \bold y) \quad \mathrm{s.t.} \bold w^\mathrm{T} \bold w \le C wRQ+1minEin(w)=N1(Zwy)T(Zwy)s.t.wTwC

  • 正则化最优解情形: − ∇ E i n ( w R E G ) ∝ w R E G -\nabla E_{in}(\bold w_{REG}) \propto \bold w_{REG} Ein(wREG)wREG
    • 目标优化问题(假设 λ > 0 \lambda > 0 λ>0): ∇ E i n ( w R E G ) + 2 λ N w R E G = 0 \nabla E_{in}(\bold w_{REG}) + \frac{2\lambda}{N} \bold w_{REG} = 0 Ein(wREG)+N2λwREG=0
      • 即: 2 N ( Z T Z w R E G − Z T y ) + 2 λ N w R E G = 0 \frac{2}{N}(\bold Z^\mathrm{T} \bold Z \bold w_{REG} - \bold Z^\mathrm{T} \bold y) + \frac{2\lambda}{N} \bold w_{REG} = 0 N2(ZTZwREGZTy)+N2λwREG=0
      • 可以得到最优解: w R E G ← ( Z T Z + λ I ) − 1 Z T y \bold w_{REG} \gets (\bold Z^\mathrm{T} \bold Z + \lambda \bold I)^{-1} \bold Z^\mathrm{T} \bold y wREG(ZTZ+λI)1ZTy
    • 此即岭回归(ridge regression)
  • 对应的优化目标(积分): E i n ( w ) + λ N w T w E_{in}(\bold w) + \frac{\lambda}{N} \bold w^\mathrm{T} \bold w Ein(w)+NλwTw
  • 后一项就称为正则项,简化了优化过程
  • λ \lambda λ视为超参数,其大小反映了正则约束的作用,越大约束性越强,将权重变得“小”
  • 对于过高阶多项式假设,不同阶权重采用不同的正则化程度——Legendre多项式

Regularization and VC Theory

  • 正则项表示了一个假设的复杂性
  • VC边界表示了整个假设集合本身的复杂性
  • E a u g E_{aug} Eaug是比 E i n E_{in} Ein更好的代理
  • 正则项的使用是将假设集合与算法本身共同考虑,这样的情形下,使用的VC维度要比理论的VC维度要小很多 d E F F ( H , A ) d_{EFF}(\mathcal{H}, \mathcal{A}) dEFF(H,A)
  • 更大的 λ \lambda λ -> 更小的 C C C -> 更小的 H ( C ) \mathcal{H}(C) H(C) -> 更小的 d E F F d_{EFF} dEFF

General Regularization

  • 更好的正则项:
    • 目标性质依赖
    • 朝着更平滑或者更简单的方向(噪声都是不平滑的)
    • 易于优化
    • 本身很差?调整 λ \lambda λ来控制正则项的作用
  • 和error measure同样的三个原则
  • L2正则项: ∥ w ∥ 2 2 \|\bold w\|^2_2 w22
    • 凸,处处可微
    • 易于优化
  • L1正则项: ∥ w ∥ 1 \|\bold w\|_1 w1
    • 凸,并不是处处可微
    • 解常会是稀疏的(更快)
  • λ \lambda λ的选择
    • 噪声越大, λ \lambda λ也应该越大
    • 噪声未知?
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值