regularization的目的是减少overfit的影响,如下图所示,
H10
H
10
的意思是假设用10次多项式去拟合数据,那么显然有
H10⊃H2
H
10
⊃
H
2
,不过由于假设
H10
H
10
带来的解可能会有很多,所以我们可以约束一下,如加强假设为
H2
H
2
,这样就有可能能防止过拟合。
继续用多项式的例子来看,如上图所示,实际上
不过即使将为题转换为这样的最优化问题,仍然不好解决,下面稍微放宽一点条件,如下图所示,假设我们不要求 w3 w 3 到 w10 w 10 都是0,而是是仅仅要求只要有8个系数 w w 是0就行了,那么就得到下面的问题:
这个新的假设略强于 H2 H 2 不过,仍然有 H10⊃H′2 H 10 ⊃ H 2 ′ ,然而由于constraint是 ∑1q=00[wq≠0]≤3 ∑ q = 0 1 0 [ w q ≠ 0 ] ≤ 3 ,这个被证实作为最优化问题将会是NP-hard的,所以这个问题仍然是困难的,下面将继续转换问题。
接下来的转换并不是等价的,考虑一个与
∑1q=00[wq≠0]≤3
∑
q
=
0
1
0
[
w
q
≠
0
]
≤
3
类似的条件,即
∑10q=0w2q≤C
∑
q
=
0
10
w
q
2
≤
C
,我们称这个条件为
H(C)
H
(
C
)
,当
才→+∞
才
→
+
∞
时候相当于没有约束,即
H10
H
10
,此时问题将会变成一个可以解决的问题。
总结一下现在的最优化问题变为了:(以线性回归为题为例)
在学习最优化中有约束的非线性规划中我们学到了,可以将约束条件乘一个系数放在min中一起最小化(当然这是大致的,不是说每个都这样),那个时候都没有学得很明白,下面将给出一个直观的解释。
实际上
wTw≤C
w
T
w
≤
C
的限制的几何意义是将解
w
w
限制在一个“球”上,以二维为例的话就是如图所示的圆,图中蓝色椭圆表示的是解得空间,即构成的集合,至于为什么是椭圆,考虑这个LR问题构成的
Ein
E
i
n
与二次型,这里用椭圆为例了。
图中所示的红色向量是
w
w
处的法向量,由之前最速下降法学习时候的结论,我们知道沿着方向走的话能找到更优(小)解,从图中可以看出,若向量
−∇Ein(w)
−
∇
E
i
n
(
w
)
和法向量(这里干脆用
w
w
来看,因为在圆时,法向量和共线)有夹角,那么肯定有绿色的向量分量,使得搜索仍能继续,此时的
w
w
肯定不是最优解,所以只有在两者没有夹角的时候才有可能是最优解,即
这里最后的一步和约束条件下的非线性规划问题的结论是一致的,以线性回归为例,我们可以很轻松得解出(在
λ
λ
给定的情况下),即:
考虑一般问题,如果我们对
中的 w w 进行积分的话,问题就转换为最小化:
非线性函数的最小化问题还是有很多方法的,此时成功将最开始的问题转换为一个能够解决的问题了。
回溯一下,问题中的 C C 和有什么关系呢?
由于我们要最小化
Ein(w)+λNwTw
E
i
n
(
w
)
+
λ
N
w
T
w
,所以越大的
λ
λ
(惩罚力度大)会使得
w
w
很小,此时等价于有很小的半径。
下面是常见的两种正则化形式:
1. L1 L 1 正则化:使得解稀疏
2. L2 L 2 正则化:使得解逼近0
比较如上图所示,现在来解释一下 L1 L 1 正则化,我们知道从二维上看 L1 L 1 正则化的图像是一个正方形,和 L2 L 2 类似得分析,一般情况下 w w 不会和红色向量(法向量)共线,即一般都有夹角,所以一般会被拉到正方形的角上,此时得到的 w w <script type="math/tex" id="MathJax-Element-46">w</script>的分量有很多的0,即得到稀疏解。