机器学习——正则化理论(Regularization Theory)

最新推荐文章于 2021-08-30 19:16:40 发布

daocaoren_

最新推荐文章于 2021-08-30 19:16:40 发布

阅读量818

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/daocaoren_/article/details/97006053

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

过拟合(overfitting)：

产生的原因有：

1.数据量(N):N越小，越容易overfit
2.随机噪声(stochastic noise， ${\sigma ^{\rm{2}}}$ )： ${\sigma ^{\rm{2}}}$ 越大，越容易overfit
3.确定噪声(deterministic noise， ${Q_f}$ )： ${Q_f}$ 越大，越容易overfit，此项由模型复杂度决定，模型越复杂， ${Q_f}$ 越大
4.VC维( ${d_{vc}}$ ): ${d_{vc}}$ 越大，越容易overfit

防止过拟合的方法：

1.从简单的模型开始算
2.Data cleaning
3.增加资料量
4.Regularization，正则化，相当于简化模型的一种手段
5.Validation

有关正则化的一些解释(以线性回归为例)

正则化是简化模型的一种手段，它从复杂的模型开始，当模型产生过拟合的现象后，再在原有模型的基础上加上正则化约束，使其简化，即，模型(regression等)+限制(regularizer)。

下面正则化线性回归:
$\begin{array}{l} \mathop {\min }\limits_{\omega \in {R^{Q + 1}}} {E_{in}}(w) = \frac{1}{N}\underbrace {{{\sum\limits_{n = 1}^N {({\omega ^T}{z_n} - {y_n})} }^2}}_{{{(Z\omega - y)}^T}(Z\omega - y)}\\ s.t.{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \underbrace {{\kern 1pt} \sum\limits_{q = 0}^Q {\omega _q^2} }_{{\omega ^T}\omega } \le C \end{array}$

即，
$\mathop {\min }\limits_{\omega \in {R^{Q + 1}}} {E_{in}}(w) = \frac{1}{N}{(Z\omega - y)^T}(Z\omega - y){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} s.t.{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\omega ^T}\omega \le C$

正则化解释：

如上图，normal表示当前参数向量 $\omega$ 的方向。
在不加正则化处理之前，误差 ${E_{in}}$ 为蓝色的椭圆，参数 $\omega$ 会沿着负梯度方向收敛到最小值 ${\omega _{lin}}$ ；
正则化就相当于图中红色的圆，约束着参数 ${\omega}$ 必须在圆内，所以加入正则化处理后， ${\omega}$ 到不了之前的最小值 ${\omega _{lin}}$ 。
由上图可看出，当normal方向与负梯度方向平行的时候，达最小值 ${\omega _{REG}}$ ，即，

$\nabla {E_{in}}({\omega _{REG}}) \propto {\omega _{REG}}$

那么，找到一个参数 $\lambda > 0$ (Lagrange multiplier)，使得，
$\nabla {E_{in}}({\omega _{REG}}) + \frac{{2\lambda }}{N}{\omega _{REG}} = 0$

而解上式，就相当于最小化下面的式子，即，
$\mathop {\min }\limits_\omega \underbrace {{E_{in}}(\omega ) + \frac{\lambda }{N}\overbrace {{\omega ^T}\omega }^{regularizer}}_{augumented{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} error{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {E_{aug}}(\omega )}$

即，
${\omega _{REG}} \leftarrow \mathop {\arg \min }\limits_\omega {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {E_{aug}}(\omega ){\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} for{\kern 1pt} {\kern 1pt} {\kern 1pt} given{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} \lambda \ge 0$
对于线性回归，有，
${\omega _{REG}} \leftarrow {({Z^T}Z + \lambda I)^{ - 1}}{Z^T}y$

实际应用：

$\lambda$ 取很小时，就能很大的改善整个模型的过拟合程度。

两种常用的正则器(regularizer):

1.sparsity(L1) regularizer: $\sum\limits_{q = 0}^Q {\left| {{\omega _q}} \right|} = {\left\| \omega \right\|_1}$
convex, not differentiable everywhere, sparsity in solution
2.weight-decay(L2) regularizer: $\sum\limits_{q = 0}^Q {\omega _q^2} = \left\| \omega \right\|_2^2$
convex, differentiable everywhere, easy to optimize

L1通常用在稀疏解中。

daocaoren_

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习——正则化理论(Regularization Theory)

过拟合(overfitting)：产生的原因有：1.数据量(N):N越小，越容易overfit2.随机噪声(stochastic noise，σ2{\sigma ^{\rm{2}}}σ2 )： σ2{\sigma ^{\rm{2}}}σ2越大，越容易overfit3.确定噪声(deterministic noise，Qf{Q_f}Qf )： Qf{Q_f}Qf越大，越容易overfi...
复制链接

扫一扫