【直观详解】什么是正则化

最新推荐文章于 2025-04-07 15:52:57 发布

haima1998

最新推荐文章于 2025-04-07 15:52:57 发布

阅读量9.2w

点赞数 133

分类专栏： deep learning

deep learning 专栏收录该内容

242 篇文章

订阅专栏

转自：

https://charlesliuyx.github.io/2017/10/03/%E3%80%90%E7%9B%B4%E8%A7%82%E8%AF%A6%E8%A7%A3%E3%80%91%E4%BB%80%E4%B9%88%E6%98%AF%E6%AD%A3%E5%88%99%E5%8C%96/

https://www.zhihu.com/question/20924039

【内容简介】主要解决什么是正则化，为什么使用正则化，如何实现正则化，外加一些对范数的直观理解并进行知识整理以供查阅

Why & What 正则化

我们总会在各种地方遇到正则化这个看起来很难理解的名词，其实它并没有那么高冷，很好理解。

首先，从使用正则化的目的角度：正则化是为了防止过拟合

过拟合

如上图，红色这条“想象力”过于丰富上下横跳的曲线就是过拟合情形。结合上图和正则化的英文 Regularizaiton-Regular-Regularize，直译应该是：规则化（加个“化”字变动词，自豪一下中文还是强）。什么是规则？你妈喊你6点前回家吃饭，这就是规则，一个限制。同理，在这里，规则化就是说给需要训练的目标函数加上一些规则（限制），让他们不要自我膨胀。正则化，看起来，挺不好理解的，追其根源，还是“正则”这两字在中文中实在没有一个直观的对应，如果能翻译成规则化，更好理解。但我们一定要明白，搞学术，概念名词的准确是十分重要，对于一个重要唯一确定的概念，为它安上一个不会产生歧义的名词是必须的，正则化的名称没毛病，只是从如何理解的角度，要灵活和类比。

我思考模式的中心有一个理念：每一个概念，被定义就是为了去解决一个实际问题（问Why&What），接着寻找解决问题的方法（问How），这个“方法”在计算机领域被称为“算法”（非常多的人在研究）。我们无法真正衡量到底是提出问题重要，还是解决问题重要，但我们可以从不同的解决问题的角度来思考问题。一方面，重复以加深印象。另一方面，具有多角度的视野，能让我们获得更多的灵感，真正做到链接并健壮自己的知识图谱

How 线性模型角度

对于线性模型来说，无论是Logistic Regression、SVM或是简单的线性模型，都有一个基函数 $ϕ ()$ ，其中有很多 $w$ （参数）需要通过对损失函数 $E ()$ 求极小值（或最大似然估计）来确定，求的过程，也就是使用训练集的训练过程：梯度下降到最小值点。最终，找到最合适的 $w$ 确定模型。从这个角度来看，正则化是怎么做的呢？

二次正则项

我们看一个线性的损失函数（真实值和预测值的误差）
$\begin{matrix} E (w) = \frac{1}{2} N \sum n = 1 {t_{n} - w^{T} ϕ (x_{n})}^{2} \\ (1) \end{matrix}$

$E (w)$ 是损失函数（又称误差函数），E即Evaluate，有时候写成L即Loss
$t_{n}$ 是测试集的真实输出，又称目标变量【对应第一幅图中的蓝色点】
$w$ 是权重（需要训练的部分，未知数）
$ϕ ()$ 是基函数，例如多项式函数，核函数
测试样本有n个数据
整个函数直观解释就是误差方差和， $\frac{1}{2}$ 只是为了求导后消去方便计算

加正则化项，得到最终的误差函数（Error function）
$\begin{matrix} \frac{1}{2} N \sum n = 1 {t_{n} - w^{T} ϕ (x_{n})}^{2} + \frac{λ}{2} w^{T} w \\ (2) \end{matrix}$

(2)式被称为目标函数（评价函数）= 误差函数（损失函数） + 正则化项
$λ$ 被称为正则化系数，越大，这个限制越强

2式对 $w$ 求导，并令为0（使误差最小），可以解得

w = (λ I + Φ^{T} Φ)^{- 1} Φ^{T} t

这是最小二乘法的解形式，所以在题目中写的是从“最小二乘角度”。至于为何正则化项是 $\frac{λ}{2} w^{T} w$ 在之后马上解释

一般正则项

直观的详解为什么要选择二次正则项。首先，需要从一般推特例，然后分析特例情况的互相优劣条件，可洞若观火。一般正则项是以下公式的形式

\begin{matrix} \frac{1}{2} N \sum n = 1 {t_{n} - w^{T} ϕ (x_{n})}^{2} + \frac{λ}{2} M \sum j = 1 {| w_{j} |}^{q} \\ (3) \end{matrix}

M是模型的阶次（表现形式是数据的维度），比如M=2，就是一个平面（二维）内的点

若q=2就是二次正则项。高维度没有图像表征非常难以理解，那就使用二维作为特例来理解。这里令M=2，即 $x = {x_{1}, x_{2}} w = {w_{1}, w_{2}}$ ，令q=0.5 q=1 q=2 q=4 有

横坐标是 $w_{1}$
纵坐标是 $w_{2}$
绿线是等高线的其中一条，换言之是一个俯视图，而z轴代表的是 $\frac{λ}{2} \sum_{j = 1}^{M} {| w_{j} |}^{q}$ 的值

空间想象力不足无法理解的读者希望下方的三维图像能给你一个直观的领悟（与绿线图一一对应）

q=2是一个圆非常好理解，考虑 $z = w_{1}^{2} + w_{2}^{2}$ 就是抛物面，俯视图是一个圆。其他几项同理（必须强调俯视图和等高线的概念，z轴表示的是正则项项的值）

正则项的边缘直观表示

蓝色的圆圈表示没有经过限制的损失函数在寻找最小值过程中， $w$ 的不断迭代（随最小二乘法，最终目的还是使损失函数最小）变化情况，表示的方法是等高线，z轴的值就是 $E (w)$
$w^{*}$ 最小值取到的点

可以直观的理解为（帮助理解正则化），我们的目标函数（误差函数）就是求蓝圈+红圈的和的最小值（回想等高线的概念并参照3式），而这个值通在很多情况下是两个曲面相交的地方

可以看到二次正则项的优势，处处可导，方便计算，限制模型的复杂度，即 $w$ 中M的大小，M是模型的阶次，M越大意味着需要决定的权重越多，所以模型越复杂。在多项式模型多，直观理解是每一个不同幂次的 $x$ 前的系数，0（或很小的值）越多，模型越简单。这就从数学角度解释了，为什么正则化（规则化）可以限制模型的复杂度，进而避免过拟合

不知道有没有人发现一次正则项的优势， $w^{*}$ 的位置恰好是 $w_{1} = 0$ 的位置，意味着从另一种角度来说，使用一次正则项可以降低维度（降低模型复杂度，防止过拟合）二次正则项也做到了这一点，但是一次正则项做的更加彻底，更稀疏。不幸的是，一次正则项有拐点，不是处处可微，给计算带来了难度，很多厉害的论文都是巧妙的使用了一次正则项写出来的，效果十分强大