Regularization
Regularized Hypothesis Set
- 过拟合线性通过正则化约束到更好的拟合状态
- 通过正则化从高阶拟合转换为低阶拟合
- 低阶多项式可以视为高阶系数均为极小值的高阶多项式
- 高阶转换为低阶:向高阶系数施加限制
- 优化目标变成含约束的优化问题——高阶系数非常小
- 可以扩展解决问题的视野——任意k个系数非常小,可以有更好的性能
- 后者比前者相对宽松,但是要比完全的高阶假设更精确一点,相对缓解了overfitting的问题
- 一个难题:约束离散化,难以优化NP-hard
- 软约束: ∥ w ∥ 2 ≤ C \|\bold{w}\|^2 \le C ∥w∥2≤C
- 软约束优化问题与原优化问题有一定的重叠
- 软约束问题在不同的 C C C之间也有重叠
Weight Decay Regularization
- 对线性回归,将正则化优化目标写成矩阵形式(拉格朗日优化):
min w ∈ R Q + 1 E i n ( w ) = 1 N ( Z w − y ) T ( Z w − y ) s . t . w T w ≤ C \min_{\bold w \in \mathbb R^{Q+1}} E_{in}(\bold w) = \frac{1}{N}(\bold Z \bold w - \bold y)^\mathrm{T}(\bold Z \bold w - \bold y) \quad \mathrm{s.t.} \bold w^\mathrm{T} \bold w \le C w∈RQ+1minEin(w)=N1(Zw−y)T(Zw−y)s.t.wTw≤C
- 正则化最优解情形:
−
∇
E
i
n
(
w
R
E
G
)
∝
w
R
E
G
-\nabla E_{in}(\bold w_{REG}) \propto \bold w_{REG}
−∇Ein(wREG)∝wREG
- 目标优化问题(假设
λ
>
0
\lambda > 0
λ>0):
∇
E
i
n
(
w
R
E
G
)
+
2
λ
N
w
R
E
G
=
0
\nabla E_{in}(\bold w_{REG}) + \frac{2\lambda}{N} \bold w_{REG} = 0
∇Ein(wREG)+N2λwREG=0
- 即: 2 N ( Z T Z w R E G − Z T y ) + 2 λ N w R E G = 0 \frac{2}{N}(\bold Z^\mathrm{T} \bold Z \bold w_{REG} - \bold Z^\mathrm{T} \bold y) + \frac{2\lambda}{N} \bold w_{REG} = 0 N2(ZTZwREG−ZTy)+N2λwREG=0
- 可以得到最优解: w R E G ← ( Z T Z + λ I ) − 1 Z T y \bold w_{REG} \gets (\bold Z^\mathrm{T} \bold Z + \lambda \bold I)^{-1} \bold Z^\mathrm{T} \bold y wREG←(ZTZ+λI)−1ZTy
- 此即岭回归(ridge regression)
- 目标优化问题(假设
λ
>
0
\lambda > 0
λ>0):
∇
E
i
n
(
w
R
E
G
)
+
2
λ
N
w
R
E
G
=
0
\nabla E_{in}(\bold w_{REG}) + \frac{2\lambda}{N} \bold w_{REG} = 0
∇Ein(wREG)+N2λwREG=0
- 对应的优化目标(积分): E i n ( w ) + λ N w T w E_{in}(\bold w) + \frac{\lambda}{N} \bold w^\mathrm{T} \bold w Ein(w)+NλwTw
- 后一项就称为正则项,简化了优化过程
- λ \lambda λ视为超参数,其大小反映了正则约束的作用,越大约束性越强,将权重变得“小”
- 对于过高阶多项式假设,不同阶权重采用不同的正则化程度——Legendre多项式
Regularization and VC Theory
- 正则项表示了一个假设的复杂性
- VC边界表示了整个假设集合本身的复杂性
- E a u g E_{aug} Eaug是比 E i n E_{in} Ein更好的代理
- 正则项的使用是将假设集合与算法本身共同考虑,这样的情形下,使用的VC维度要比理论的VC维度要小很多 d E F F ( H , A ) d_{EFF}(\mathcal{H}, \mathcal{A}) dEFF(H,A)
- 更大的 λ \lambda λ -> 更小的 C C C -> 更小的 H ( C ) \mathcal{H}(C) H(C) -> 更小的 d E F F d_{EFF} dEFF
General Regularization
- 更好的正则项:
- 目标性质依赖
- 朝着更平滑或者更简单的方向(噪声都是不平滑的)
- 易于优化
- 本身很差?调整 λ \lambda λ来控制正则项的作用
- 和error measure同样的三个原则
- L2正则项:
∥
w
∥
2
2
\|\bold w\|^2_2
∥w∥22
- 凸,处处可微
- 易于优化
- L1正则项:
∥
w
∥
1
\|\bold w\|_1
∥w∥1
- 凸,并不是处处可微
- 解常会是稀疏的(更快)
-
λ
\lambda
λ的选择
- 噪声越大, λ \lambda λ也应该越大
- 噪声未知?