正则化
正则化主要思想:通过在原目标(代价)函数中添加惩罚项,对以控制模型复杂度,减小过拟合。
J ~ ( w ; X , y ) = J ( w ; X , y ) + α Ω ( w ) \tilde{J}(w ; X, y)=J(w ; X, y)+\alpha \Omega(w) J~(w;X,y)=J(w;X,y)+αΩ(w)
正则化假设集
正则化两种方法:
- Mathematical
函数近似过程的病态问题 - Heuristic
通过妨碍 E i n E_{in} Ein最小化过程
主要讨论第二种方法,并采用假设集: Legendre Polynomials + Linear Regression 简化推导过程,进行讲解。
将假设函数从高次多项式降至低次,以降低模型复杂度和减少过拟合,寻找到能够更好拟合目标分布的函数。
将将次转化成带有限制(constraint)条件的问题。以10次多项式和2次多项式为例:
H
10
:
w
0
+
w
1
x
+
w
2
x
2
…
+
w
10
x
10
H
2
:
w
0
+
w
1
x
+
w
2
x
2
\begin{aligned} H_{10} : & w_{0}+w_{1} x+w_{2} x^{2} \ldots+w_{10} x^{10} \\ & H_{2} : w_{0}+w_{1} x+w_{2} x^{2} \end{aligned}
H10:w0+w1x+w2x2…+w10x10H2:w0+w1x+w2x2
其中二次式可转化为加了约束条件的10次多项式, H 2 = H 10 H_{2} = H_{10} H2=H10 with constraint
进一步松弛约束条件(w=0的个数>=8):
假设空间之间的关系:
H
2
⊂
H
2
′
⊂
H
10
H_{2} \subset H_{2}^{\prime} \subset H_{10}
H2⊂H2′⊂H10
由于
H
2
′
H_{2}^{\prime}
H2′的min
E
i
n
E_{in}
Ein
是一个NP-hard问题,可将假设空间再次改写为(权值向量w的模的平方小于C)
此时最小化原始函数就转化为最小化具有限制的函数
权重衰减正则化
可通过拉格朗日乘子式处理带约束的优化问题
式子中的 ( w z − y ) 2 (w z-y)^{2} (wz−y)2和 w 2 w ^{2} w2在 R q + 1 R ^{q+1} Rq+1中为两个超球体(椭圆球和正圆球体)
蓝色椭圆为无条件限制时
E
i
n
E_{in}
Ein的一条等高线,红色圆为限制条件半径
C
\sqrt{C}
C的
l
2
l_2
l2范数球,
w
w
w的移动不能超出球面,同时要接近无限制条件下最小点。即
w
w
w移动方向必须满足:1. 移动方向与球面法向量垂直 2. 采用梯度下降法更新时,移动方向要是梯度反方向的一个分量向量。则当
−
∇
E
i
n
-\nabla E_{i n}
−∇Ein与法向量平行时,即实际滚动方向(图中蓝色的向量)不存在与球切线方向相同的分量,才达到最优点。
a
=
λ
b
⇒
−
∇
E
i
n
(
w
R
E
G
)
=
λ
w
R
E
G
⇒
∇
E
i
n
(
w
R
E
G
)
+
λ
w
R
E
G
=
0
⇒
∇
E
i
n
(
w
R
E
G
)
+
2
λ
N
w
R
E
G
=
0
\begin{array}{c}{a=\lambda b} \\ {\Rightarrow-\nabla E_{i n}\left(w_{R E G}\right)=\lambda w_{R E G}} \\ {\Rightarrow \nabla E_{i n}\left(w_{R E G}\right)+\lambda w_{R E G}=0} \\ {\Rightarrow \nabla E_{i n}\left(w_{R E G}\right)+\frac{2 \lambda}{N} w_{R E G}=0}\end{array}
a=λb⇒−∇Ein(wREG)=λwREG⇒∇Ein(wREG)+λwREG=0⇒∇Ein(wREG)+N2λwREG=0
将线性回归中求的
∇
E
i
n
(
w
R
E
G
)
\nabla E_{i n}\left(w_{R E G}\right)
∇Ein(wREG)带入,则有,
对
w
R
E
G
=
(
Z
T
Z
+
λ
I
)
−
1
Z
T
y
w_{R E G}=\left(Z^{T} Z+\lambda I\right)^{-1} Z^{T} y
wREG=(ZTZ+λI)−1ZTy
包含了求逆矩阵的过程,
Z
T
Z
Z^{T} Z
ZTZ为半正定矩阵,如果
λ
>
0
\lambda>0
λ>0,那么
Z
T
Z
+
λ
I
Z^{T} Z+\lambda I
ZTZ+λI一定是正定矩阵,即一定可逆。
如果对于更一般的情况,例如逻辑回归问题中,
∇
E
i
n
\nabla E_{i n}
∇Ein不是线性的,则代入平行条件得不到一个线性方程式,
w
R
E
G
w_{R E G}
wREG不易求解。可从另一角度思考:
式
∇
E
i
n
(
w
R
E
G
)
+
2
λ
N
w
R
E
G
\nabla E_{i n}\left(w_{R E G}\right)+\frac{2 \lambda}{N} w_{R E G}
∇Ein(wREG)+N2λwREG积分可得
E
i
n
(
w
)
+
λ
N
w
T
w
E_{i n}(w)+\frac{\lambda}{N} w^{T} w
Ein(w)+NλwTw,定义
E
aug
(
w
)
=
E
in
(
w
)
+
λ
N
w
T
w
E_{\text {aug}}(w)=E_{\text {in}}(w)+\frac{\lambda}{N} w^{T} w
Eaug(w)=Ein(w)+NλwTw为增广错误(augmented error),则问题转化为最小化该函数,
w
T
w
w^{T} w
wTw为正则化项(regularizer),也称weight-decay regularization。
最终求解公式可表示为:
w
R
E
G
=
argmin
w
E
i
n
(
w
)
+
λ
N
w
T
w
w_{R E G}=\underset{w}{\operatorname{argmin}}E_{i n}(w)+\frac{\lambda}{N} w^{T} w
wREG=wargminEin(w)+NλwTw
当
λ
\lambda
λ取不同值时,越大的
λ
\lambda
λ对应越短的权重向量
w
w
w,同时对应越小的约束半径
C
C
C.这种将
w
w
w变小的正则化(+
λ
N
w
T
w
\frac{\lambda}{N} w^{T} w
NλwTw)称为权重衰减。这种正则化可以和任意的转换函数及任意线性模型结合。
Regularization VS VC Theory
通过VC限制说明正则化的优势
Augmented Error表达式如下:
E
a
u
g
(
w
)
=
E
i
n
(
w
)
+
λ
N
w
T
w
E_{a u g}(w)=E_{i n}(w)+\frac{\lambda}{N} w^{T} w
Eaug(w)=Ein(w)+NλwTw
VC Bound表示为:
E
o
u
t
(
w
)
≤
E
i
n
(
w
)
+
Ω
(
H
)
E_{o u t}(w) \leq E_{i n}(w)+\Omega(H)
Eout(w)≤Ein(w)+Ω(H)
其中
w
T
w
w^{T} w
wTw表示单个hypothesis的复杂度,记为
Ω
(
w
)
\Omega(w)
Ω(w);而
Ω
(
H
)
\Omega(H)
Ω(H)表示整个hypothesis set的复杂度,则
Ω
(
w
)
⊂
Ω
(
H
)
\Omega(w) \subset \Omega(H)
Ω(w)⊂Ω(H),所以
E
a
u
g
(
w
)
E_{a u g}(w)
Eaug(w)更接近
E
o
u
t
E_{o u t}
Eout,误差更小。
通过VC维说明正则化的好处
最小化的
E
a
u
g
(
w
)
E_{a u g}(w)
Eaug(w)为
min
w
∈
R
d
ˇ
+
1
E
a
u
g
(
w
)
=
E
i
n
(
w
)
+
λ
N
w
T
w
\underset{w\in\mathbb{R}^{\check{d}+1}}{\operatorname{min}}E_{a u g}(w)=E_{i n}(w)+\frac{\lambda}{N} w^{T} w
w∈Rdˇ+1minEaug(w)=Ein(w)+NλwTw
按照VC理论,
d
V
C
(
H
)
=
d
ˇ
+
1
d_{V C}(H)=\check{d}+1
dVC(H)=dˇ+1,考虑所有
w
w
w,没有任何限制条件。而引入限制条件后有效的VC维为
d
V
C
(
H
(
C
)
)
=
d
E
F
F
(
H
,
A
⎵
m
i
n
E
a
u
g
(
w
)
)
d_{V C}(H(C))=d_{E F F}(H, \underbrace{A}_{minE_{a u g}(w)})
dVC(H(C))=dEFF(H,minEaug(w)
A)。即
d
V
C
(
H
)
d_{V C}(H)
dVC(H)比较大,因为考虑整个hypothesis set,
d
E
F
F
(
H
,
A
)
d_{E F F}(H, A)
dEFF(H,A)比较小,是由于regularized的影响,限制了
w
w
w只取一小部分。
对多项式拟合模型,当 λ = 0 \lambda=0 λ=0时,所有 w w w都考虑,相应 d V C d_{V C} dVC大,容易过拟合。当 λ > 0 \lambda>0 λ>0并越来越大, d E F F ( H , A ) d_{E F F}(H, A) dEFF(H,A)减小,拟合曲线越来越平滑,容易欠拟合。
General Regularizers
通用的Regularizers,即
Ω
(
w
)
\Omega(w)
Ω(w)选取方法一般有3种:
1. target-dependent
根据目标函数的性质设计正则化项,如某目标函数是对称函数,因此权值向量的所有奇数分量应被抑制
2. plausible
正则化项应尽可能地平滑(smooth)或简单(simpler),因为不论是随机性噪音还是确定性噪音都不是平滑的。平滑表示可微,如
l
2
l_2
l2。简单表示容易求解,如
l
1
l_1
l1正则化项或稀疏(sparsity)正则化项
3. friendly
易于最优化的求解。如
l
2
l_2
l2
L2和L1正则化
范数:
∥
w
∥
p
:
=
(
∑
i
=
1
n
∣
w
i
∣
p
)
1
p
\|w\|_{p} :=\left(\sum_{i=1}^{n}\left|w_{i}\right|^{p}\right)^{\frac{1}{p}}
∥w∥p:=(i=1∑n∣wi∣p)p1
对于线性回归模型,使用 L1 正则化的模型建叫做 Lasso 回归,使用 L2 正则化的模型叫做 Ridge 回归(岭回归)。
L
1
:
Ω
(
w
)
=
∥
w
∥
1
=
∑
i
∣
w
i
∣
L
2
:
Ω
(
w
)
=
∥
w
∥
2
2
=
∑
i
w
i
2
\begin{array}{l}{L_{1} : \Omega(w)=\|w\|_{1}=\sum_{i}\left|w_{i}\right|} \\ {L_{2} : \Omega(w)=\|w\|_{2}^{2}=\sum_{i} w_{i}^{2}}\end{array}
L1:Ω(w)=∥w∥1=∑i∣wi∣L2:Ω(w)=∥w∥22=∑iwi2
L1 Regulariation:凸函数,但是角上无法求导,也就是说优化比较难,顶点处的许多w分量为零,通过正则化之后可以产生稀疏权值矩阵,对于计算和存储都是很大的优势;其正则化效果会使原最优解的元素产生不同量的偏移,并使某些元素为0,从而产生稀疏性。
L2 Regulariation:凸函数,可以求导,并且很方便优化,最后通过正则化之后得到权重值都会偏小;其正则化的效果是对原最优解的每个元素进行不同比例的放缩。