（LXTML笔记）正则化-CSDN博客

本文链接：https://blog.csdn.net/qq_23997101/article/details/79350733

regularization的目的是减少overfit的影响，如下图所示，
这里写图片描述
$H_{10}$ 的意思是假设用10次多项式去拟合数据，那么显然有 $H_{10} \supset H_{2}$ ，不过由于假设 $H_{10}$ 带来的解可能会有很多，所以我们可以约束一下，如加强假设为 $H_{2}$ ，这样就有可能能防止过拟合。

这里写图片描述
继续用多项式的例子来看，如上图所示，实际上

H 2 \Leftrightarrow H 10 + c o n s t r a i n t : w 3 = w 4 = . . . w 10 = 0,

$H_{2}\Leftrightarrow H_{10}+constraint:w_3=w_4=...w_{10}=0,$
不过即使将为题转换为这样的最优化问题，仍然不好解决，下面稍微放宽一点条件，如下图所示，假设我们不要求

w3 w 3 $w_3$ 到

w10 w 10 $w_{10}$ 都是0，而是是仅仅要求只要有8个系数

w w $w$ 是0就行了，那么就得到下面的问题：
这里写图片描述

这个新的假设

H_{2}^{'}

$H_2'$ 略强于

H2 H 2 $H_{2}$ 不过，仍然有

H10⊃H′2 H 10 ⊃ H 2 ′ $H_{10} \supset H_2'$ ，然而由于constraint是

∑1q=00[wq≠0]≤3 ∑ q = 0 1 0 [ w q ≠ 0 ] ≤ 3 $\sum_{q=0}^10 [w_q \neq 0] \leq3$ ，这个被证实作为最优化问题将会是NP-hard的，所以这个问题仍然是困难的，下面将继续转换问题。

这里写图片描述
接下来的转换并不是等价的，考虑一个与 $\sum_{q=0}^10 [w_q \neq 0] \leq3$ 类似的条件，即 $\sum_{q=0}^{10}w_q^2\leq C$ ，我们称这个条件为 $H(C)$ ，当 $才\to + \infty$ 时候相当于没有约束，即 $H_{10}$ ，此时问题将会变成一个可以解决的问题。

总结一下现在的最优化问题变为了：（以线性回归为题为例）
这里写图片描述
在学习最优化中有约束的非线性规划中我们学到了，可以将约束条件乘一个系数放在min中一起最小化（当然这是大致的，不是说每个都这样），那个时候都没有学得很明白，下面将给出一个直观的解释。

这里写图片描述
实际上 $w^Tw \leq C$ 的限制的几何意义是将解 $w$ 限制在一个“球”上，以二维为例的话就是如图所示的圆，图中蓝色椭圆表示的是解得空间，即 $E_{in}=const$ 构成的集合，至于为什么是椭圆，考虑这个LR问题构成的 $E_{in}$ 与二次型，这里用椭圆为例了。

图中所示的红色向量是 $w$ 处的法向量，由之前最速下降法学习时候的结论，我们知道沿着 $-\nabla E_{in}(w)$ 方向走的话能找到更优（小）解，从图中可以看出，若向量 $-\nabla E_{in}(w)$ 和法向量（这里干脆用 $w$ 来看，因为在圆时，法向量和 $w$ 共线）有夹角，那么肯定有绿色的向量分量，使得搜索仍能继续，此时的 $w$ 肯定不是最优解，所以只有在两者没有夹角的时候才有可能是最优解，即
这里写图片描述

这里最后的一步和约束条件下的非线性规划问题的结论是一致的，以线性回归为例，我们可以很轻松得解出 $w$ （在 $\lambda$ 给定的情况下），即：
这里写图片描述

考虑一般问题，如果我们对

\nabla E i n (w) + 2 λ N w = 0,

$\nabla E_{in}(w)+\frac{2\lambda}{N}w=0,$
中的

w w $w$ 进行积分的话，问题就转换为最小化：

E_{i n} (w) + \frac{λ}{N} w^{T} w,

$E_{in}(w)+\frac{\lambda}{N}w^Tw,$
非线性函数的最小化问题还是有很多方法的，此时成功将最开始的问题转换为一个能够解决的问题了。

回溯一下，问题中的 $C$ 和 $\lambda$ 有什么关系呢？

这里写图片描述
由于我们要最小化 $E_{in}(w)+\frac{\lambda}{N}w^Tw$ ,所以越大的 $\lambda$ （惩罚力度大）会使得 $w$ 很小，此时等价于有很小的半径 $C$ 。

下面是常见的两种正则化形式：

1. $L1$ 正则化：使得解稀疏
2. $L2$ 正则化：使得解逼近0

这里写图片描述

比较如上图所示，现在来解释一下 $L1$ 正则化，我们知道从二维上看 $L1$ 正则化的图像是一个正方形，和 $L2$ 类似得分析，一般情况下 $w$ 不会和红色向量（法向量）共线，即一般都有夹角，所以 $w$ 一般会被拉到正方形的角上，此时得到的 w <script type="math/tex" id="MathJax-Element-46">w</script>的分量有很多的0，即得到稀疏解。