Tikhonov regularization 吉洪诺夫正则化（L2正则化）

最新推荐文章于 2025-03-16 13:39:04 发布

efu莜

最新推荐文章于 2025-03-16 13:39:04 发布

阅读量3w

点赞数 42

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_35045096/article/details/91872659

版权

深度学习专栏收录该内容

1 篇文章

订阅专栏

在数学，统计学和计算机科学中，特别是机器学习和反问题，正则化是为了解决不适定问题或防止过拟合而引入额外信息的过程。

1.不适定问题

图像处理中，不适定问题也称为反问题。上世纪90年代法国数学家阿达玛提出了不适定问题的概念：
一个数学物理定解问题的解存在、唯一并且稳定，则称该问题是适定的（WellPosed）.如果不满足适定性概念中的上述判据中的一条或几条，称该问题是不适定的。
典型的图像处理不适定问题包括：图像去噪（ImageDe-nosing），图像恢复（Image Restorsion），图像放大（Image Zooming），图像修补（ImageInpainting），图像去马赛克（image Demosaicing），图像超分辨(Image super-resolution)等。
解决不适定性的有效途径是在图像处理中引入关于图像的先验信息。因此图像的先验模型对于图像反问题和其它计算机视觉还是图像处理问题至关重要。对于图像的先验模型的研究，研究者们从多个角度进行研究，其代表主要有“统计方法”和“正则化几何建模方法”，“稀疏表示方法”三种主流方法。

1.1 正则化几何模型

关于自然图像建模的“正则化几何方法”是最近几年热点讨论的主题。其中一类方法是利用偏微分方程理论建立图像处理模型；另一类方法是基于能量泛函最优的变分方法。

1.2 稀疏表示

主要思路分为两大类。直接方法是机理测试方法，即从生物机理上，在自然图像刺激条件下检测神经细胞的响应特性；另外一个替代的方法是模型仿真方法，即利用自然图像的统计特性，建立模型模拟早期视觉处理系统的处理机制。

1.3 形态分量分析

MCA方法是国际著名学者J.-L. Starck, M. Elad, D.L. Donoho在2004年提出的一种将图像分解为“几何结构”、“纹理”、“噪声”的形态分量分解方法。

1.3.1 基于形态分量分析的图像超分辨重建理论与算法

超分辨率重建(super-resolution reconstruction)是一种由一序列低分辨率退化图像重建一幅(或序列)高分辨率清晰图像的第二代复原技术[1]。超分辨率重建技术综合考虑成像过程中诸如运动变形、光学模糊、低采样率、随机噪声等等各种退化因素，在航空成像、遥感成像、医学成像、层析成像等众多领域具有广泛应用前景。从数学的角度看，图像超分辨率重建是Hardmard意义下的非适定数学反问题，因此成为图像处理、计算机视觉和计算调和分析等多学科领域国际上众多研究者关注的热点问题。迄今为止，人们已经提出图像超分辨率重建的许多算法。但是如何进一步刻画图像的边缘结构、纹理等图像中重要视觉特征，提高图像超分辨算法对图像不同视觉特征的保持能力，解决超分辨问题的不适定性有待深入研究。图像超分辨是包含图像去噪、去模糊、去马赛克、图像放大等的组合问题，图像形态分量分析（MCA-Morphological Component Analysis）通过结合图像的稀疏表示（Sparcerepresentation）理论和变分方法进行图像分解，在图像超分辨应用中具有潜在优势：1）MCA通过分类稀疏表示字典将图像分解为“几何结构分量”、“振荡或纹理分量”、“噪声分量”，提供了良好的图像结构、纹理自适应处理和噪声分离机制；2）MCA继承了过完备稀疏表示与信号重建的优异性能，能够以最少的原子捕获图像中的高维奇异性特征。而这种捕获和跟踪机制是旋转、平移和伸缩不变的，因此对于超分辨重建的运动变形、光学模糊，低采样率的处理非常方便；3）MCA在稀疏表示的基础上，继承了图像几何正则化变分方法的优点，理论上为图像超分辨提供统一的变分框架。因此MCA理论为图像超分辨率复原提供了新的契机和研究思路。

1.4 统计模型

多尺度变换域包括隐马尔科夫树（HMT）、背景隐马尔科夫模型（CHMM）等.

2.过拟合问题

在统计学中，过度拟合是“分析结果与一组特定的数据过于接近或准确，因此可能无法拟合其他数据或可靠地预测未来的观测结果”，如下图所示：
在这里插入图片描述
绿色的线代表过拟合模型，黑色的线代表正则化线虽然绿色的线最符合训练数据，但它太依赖于这些数据，而且与黑色的线相比，它可能对新的未知数据有更高的错误率。

3.正则化技术

正则化技术是保证算法泛化能力的有效工具，因此算法正则化的研究成为机器学习中主要的研究主题 [9] [10]。此外，正则化还是训练参数数量大于训练数据集的深度学习模型的关键步骤。正则化可以避免算法过拟合，过拟合通常发生在算法学习的输入数据无法反应真实的分布且存在一些噪声的情况。过去数年，研究者提出和开发了多种适合机器学习算法的正则化方法，如数据增强、L2 正则化（权重衰减）、L1 正则化、Dropout、Drop Connect、随机池化和早停等。
除了泛化原因，奥卡姆剃刀原理和贝叶斯估计也都支持着正则化。根据奥卡姆剃刀原理，在所有可能选择的模型中，能很好解释已知数据，并且十分简单的模型才是最好的模型。而从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。

3.1 数据增强

数据增强是提升算法性能、满足深度学习模型对大量数据的需求的重要工具。数据增强通过向训练数据添加转换或扰动来人工增加训练数据集。数据增强技术如水平或垂直翻转图像、裁剪、色彩变换、扩展和旋转通常应用在视觉表象和图像分类中。

3.2 L1 和 L2 正则化

L1 和 L2 正则化是最常用的正则化方法。L1 正则化向目标函数添加正则化项，以减少参数的绝对值总和；而 L2 正则化中，添加正则化项的目的在于减少参数平方的总和。根据之前的研究，L1 正则化中的很多参数向量是稀疏向量，因为很多模型导致参数趋近于 0，因此它常用于特征选择设置中。机器学习中最常用的正则化方法是对权重施加 L2 范数约束。

3.2.1 L2 regularization（权重衰减）

L2 regularization（权重衰减）L2正则化就是在代价函数后面再加上一个正则化项λ ，使得权重在更新的时候，乘以一个小于1的因子（1-a(λ/m))，这个可以防止W过大。正则化项里面有一个系数1/2，1/2经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与1/2相乘刚好凑整。过拟合的时候，拟合函数的系数往往非常大。
过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大.
L2 Regularization 防止了系数W过大，也就防止了拟合函数导数值过大，也就防止了函数导数值波动过大，也就解决了过拟合问题。L2正则化是训练深度学习模型中最常用的一种解决过拟合问题的方法。

在这里插入图片描述

3.2.2 L1 regularization

L1正则化的正则项是所有权重w的绝对值的和，乘以λ/n（这里不像L2正则化项那样，需要再乘以1/2）；消除过拟合的原因与L2类似。使用频率没有L2正则化高。

3.3 Dropout正则化

L1、L2正则化是通过修改代价函数来实现的，而Dropout则是通过修改神经网络本身来实现的。Dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是暂时，对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。运用了dropout的训练过程，相当于训练了很多个只有半数隐层单元的神经网络（后面简称为“半数网络”），每一个这样的半数网络，都可以给出一个分类结果，这些结果有的是正确的，有的是错误的。随着训练的进行，大部分半数网络都可以给出正确的分类结果，那么少数的错误分类结果就不会对最终结果造成大的影响。dropout率的选择：经过交叉验证，隐含节点dropout率等于0.5的时候效果最好，原因是0.5的时候dropout随机生成的网络结构最多。

3.4 Drop Connect

Drop Connect 是另一种减少算法过拟合的正则化策略，是 Dropout 的一般化。在 Drop Connect 的过程中需要将网络架构权重的一个随机选择子集设置为零，取代了在 Dropout 中对每个层随机选择激活函数的子集设置为零的做法。由于每个单元接收来自过去层单元的随机子集的输入，Drop Connect 和 Dropout 都可以获得有限的泛化性能 [22]。Drop Connect 和 Dropout 相似的地方在于它涉及在模型中引入稀疏性，不同之处在于它引入的是权重的稀疏性而不是层的输出向量的稀疏性。

3.5 早停法

早停法可以限制模型最小化代价函数所需的训练迭代次数。早停法通常用于防止训练中过度表达的模型泛化性能差。如果迭代次数太少，算法容易欠拟合（方差较小，偏差较大），而迭代次数太多，算法容易过拟合（方差较大，偏差较小）。早停法通过确定迭代次数解决这个问题，不需要对特定值进行手动设置。

4.吉洪诺夫正则化

Tikhonov正则化是以Andrey Tikhonov的名字命名的，是不适定问题正则化最常用的方法。在统计学上，这种方法被称为岭回归，在机器学习中，它被称为权值衰减，随着多个独立的发现，它也被称为Tikhonov Miller方法，Phillips Twomey方法，约束线性反演方法，和线性正则化方法。它与非线性最小二乘问题的Levenberg Marquardt算法有关。
假设一个已知的矩阵A和一个向量b，我们希望找到一个向量x满足：
在这里插入图片描述
标准方法是普通最小二乘线性回归。然而，如果没有x满足这个方程，或者不止一个x满足这个方程，那么这个解就不是唯一的，这个问题就是病态的。在这种情况下，普通最小二乘估计会导致超定(过拟合)，或者更常见的是欠定(欠拟合)方程组。在A将x映射到b的正向上，大多数实际现象都有低通滤波器的影响。因此，在求解逆问题时，逆映射作为一个高通滤波器，具有放大噪声的不良倾向(特征值/奇异值在逆映射中最大，在正向映射中最小)。此外，普通最小二乘隐式地使A的空白空间中的重构版本x的每个元素无效，而不允许将模型用作x的先验。普通最小二乘试图最小化残差的平方和，它可以被简洁地写成：
在这里插入图片描述
为了优先考虑具有理想性质的特解，可以在这个极小化过程中加入正则化项:

在许多情况下，这个矩阵被选择为单位矩阵的倍数，优先考虑具有较小范数的解;这就是L2正则化。在其他情况下，如果基本向量被认为是连续的，则可以使用高通算子(例如差分算子或加权傅里叶算子)来增强平滑性。这种正则化改进了问题的条件，从而实现了直接的数值求解。一个显式解，用{\hat {x}}表示，由:
在这里插入图片描述
求解过程可以参考矩阵求导
正则化的效果可以通过矩阵的尺度来改变。对于\Gamma =0，如果(ATA) - 1存在，这就可以归结为非正则化最小二乘解。
L2正则化除了用于线性回归外，还可用于许多场合，如使用逻辑回归或支持向量机进行分类和矩阵分解。