机器学习与数据挖掘第十二讲：Regularization

最新推荐文章于 2023-08-22 21:09:32 发布

leeningzzu

最新推荐文章于 2023-08-22 21:09:32 发布

阅读量299

点赞数

分类专栏：机器学习与数据挖掘：加州理工学院公开课

本文链接：https://blog.csdn.net/leeningzzu/article/details/91861725

版权

机器学习与数据挖掘：加州理工学院公开课专栏收录该内容

14 篇文章 0 订阅

订阅专栏

正则化

正则化主要思想：通过在原目标(代价)函数中添加惩罚项，对以控制模型复杂度，减小过拟合。
$\tilde{J}(w ; X, y)=J(w ; X, y)+\alpha \Omega(w)$

正则化假设集

正则化两种方法：

Mathematical
函数近似过程的病态问题
Heuristic
通过妨碍 $E_{in}$ 最小化过程

主要讨论第二种方法，并采用假设集: Legendre Polynomials + Linear Regression 简化推导过程，进行讲解。

将假设函数从高次多项式降至低次，以降低模型复杂度和减少过拟合，寻找到能够更好拟合目标分布的函数。

将将次转化成带有限制(constraint)条件的问题。以10次多项式和2次多项式为例：
$\begin{aligned} H_{10} : & w_{0}+w_{1} x+w_{2} x^{2} \ldots+w_{10} x^{10} \\ & H_{2} : w_{0}+w_{1} x+w_{2} x^{2} \end{aligned}$

其中二次式可转化为加了约束条件的10次多项式， $H_{2} = H_{10}$ with constraint

进一步松弛约束条件(w=0的个数>=8）：

假设空间之间的关系： $H_{2} \subset H_{2}^{\prime} \subset H_{10}$
由于 $H_{2}^{\prime}$ 的min $E_{in}$

是一个NP-hard问题，可将假设空间再次改写为(权值向量w的模的平方小于C）

此时最小化原始函数就转化为最小化具有限制的函数

权重衰减正则化

可通过拉格朗日乘子式处理带约束的优化问题

式子中的 $w z-y)^{2}$ 和 $w ^{2}$ 在 $R ^{q+1}$ 中为两个超球体(椭圆球和正圆球体)

蓝色椭圆为无条件限制时 $E_{in}$ 的一条等高线，红色圆为限制条件半径 $\sqrt{C}$ 的 $l_2$ 范数球， $w$ 的移动不能超出球面，同时要接近无限制条件下最小点。即 $w$ 移动方向必须满足：1. 移动方向与球面法向量垂直 2. 采用梯度下降法更新时，移动方向要是梯度反方向的一个分量向量。则当 $-\nabla E_{i n}$ 与法向量平行时，即实际滚动方向（图中蓝色的向量）不存在与球切线方向相同的分量，才达到最优点。
$\begin{array}{c}{a=\lambda b} \\ {\Rightarrow-\nabla E_{i n}\left(w_{R E G}\right)=\lambda w_{R E G}} \\ {\Rightarrow \nabla E_{i n}\left(w_{R E G}\right)+\lambda w_{R E G}=0} \\ {\Rightarrow \nabla E_{i n}\left(w_{R E G}\right)+\frac{2 \lambda}{N} w_{R E G}=0}\end{array}$
将线性回归中求的 $\nabla E_{i n}\left(w_{R E G}\right)$ 带入，则有，

对 $w_{R E G}=\left(Z^{T} Z+\lambda I\right)^{-1} Z^{T} y$
包含了求逆矩阵的过程， $Z^{T} Z$ 为半正定矩阵，如果 $\lambda>0$ ，那么 $Z^{T} Z+\lambda I$ 一定是正定矩阵，即一定可逆。

如果对于更一般的情况，例如逻辑回归问题中， $\nabla E_{i n}$ 不是线性的，则代入平行条件得不到一个线性方程式， $w_{R E G}$ 不易求解。可从另一角度思考：
式 $\nabla E_{i n}\left(w_{R E G}\right)+\frac{2 \lambda}{N} w_{R E G}$ 积分可得 $E_{i n}(w)+\frac{\lambda}{N} w^{T} w$ ，定义 $E_{\text {aug}}(w)=E_{\text {in}}(w)+\frac{\lambda}{N} w^{T} w$ 为增广错误(augmented error），则问题转化为最小化该函数， $w^{T} w$ 为正则化项(regularizer），也称weight-decay regularization。
最终求解公式可表示为：
$w_{R E G}=\underset{w}{\operatorname{argmin}}E_{i n}(w)+\frac{\lambda}{N} w^{T} w$
当 $\lambda$ 取不同值时，越大的 $\lambda$ 对应越短的权重向量 $w$ ,同时对应越小的约束半径 $C$ .这种将 $w$ 变小的正则化(+ $\frac{\lambda}{N} w^{T} w$ ）称为权重衰减。这种正则化可以和任意的转换函数及任意线性模型结合。

Regularization VS VC Theory

通过VC限制说明正则化的优势
Augmented Error表达式如下：
$E_{a u g}(w)=E_{i n}(w)+\frac{\lambda}{N} w^{T} w$
VC Bound表示为：
$E_{o u t}(w) \leq E_{i n}(w)+\Omega(H)$
其中 $w^{T} w$ 表示单个hypothesis的复杂度，记为 $\Omega(w)$ ；而 $\Omega(H)$ 表示整个hypothesis set的复杂度，则 $\Omega(w) \subset \Omega(H)$ ,所以 $E_{a u g}(w)$ 更接近 $E_{o u t}$ ，误差更小。
通过VC维说明正则化的好处
最小化的 $E_{a u g}(w)$ 为
$\underset{w\in\mathbb{R}^{\check{d}+1}}{\operatorname{min}}E_{a u g}(w)=E_{i n}(w)+\frac{\lambda}{N} w^{T} w$
按照VC理论， $d_{V C}(H)=\check{d}+1$ ,考虑所有 $w$ ,没有任何限制条件。而引入限制条件后有效的VC维为 $d_{V C}(H(C))=d_{E F F}(H, \underbrace{A}_{minE_{a u g}(w)})$ 。即 $d_{V C}(H)$ 比较大，因为考虑整个hypothesis set， $d_{E F F}(H, A)$ 比较小，是由于regularized的影响，限制了 $w$ 只取一小部分。

对多项式拟合模型，当 $\lambda=0$ 时，所有 $w$ 都考虑，相应 $d_{V C}$ 大，容易过拟合。当 $\lambda>0$ 并越来越大， $d_{E F F}(H, A)$ 减小，拟合曲线越来越平滑，容易欠拟合。

General Regularizers

通用的Regularizers,即 $\Omega(w)$ 选取方法一般有3种：
1. target-dependent
根据目标函数的性质设计正则化项，如某目标函数是对称函数，因此权值向量的所有奇数分量应被抑制
2. plausible
正则化项应尽可能地平滑（smooth）或简单（simpler），因为不论是随机性噪音还是确定性噪音都不是平滑的。平滑表示可微，如 $l_2$ 。简单表示容易求解，如 $l_1$ 正则化项或稀疏（sparsity）正则化项
3. friendly
易于最优化的求解。如 $l_2$

L2和L1正则化

范数：
$\|w\|_{p} :=\left(\sum_{i=1}^{n}\left|w_{i}\right|^{p}\right)^{\frac{1}{p}}$
对于线性回归模型，使用 L1 正则化的模型建叫做 Lasso 回归，使用 L2 正则化的模型叫做 Ridge 回归（岭回归）。
$\begin{array}{l}{L_{1} : \Omega(w)=\|w\|_{1}=\sum_{i}\left|w_{i}\right|} \\ {L_{2} : \Omega(w)=\|w\|_{2}^{2}=\sum_{i} w_{i}^{2}}\end{array}$

L1 Regulariation：凸函数，但是角上无法求导，也就是说优化比较难，顶点处的许多w分量为零，通过正则化之后可以产生稀疏权值矩阵，对于计算和存储都是很大的优势；其正则化效果会使原最优解的元素产生不同量的偏移，并使某些元素为0，从而产生稀疏性。
L2 Regulariation：凸函数，可以求导，并且很方便优化，最后通过正则化之后得到权重值都会偏小;其正则化的效果是对原最优解的每个元素进行不同比例的放缩。

Reference

十四、Regularization
【直观详解】什么是正则化
 深入理解L1、L2正则化

leeningzzu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习与数据挖掘第十二讲：Regularization

正则化正则化主要思想：通过在原目标(代价)函数中添加惩罚项，对以控制模型复杂度，减小过拟合。J~(w;X,y)=J(w;X,y)+αΩ(w)\tilde{J}(w ; X, y)=J(w ; X, y)+\alpha \Omega(w)J~(w;X,y)=J(w;X,y)+αΩ(w)正则化假设集正则化两种方法：Mathematical函数近似过程的病态问题Heuristic通...
复制链接

扫一扫