正则化理论(一)

最新推荐文章于 2025-03-16 13:39:04 发布

柳叶吴钩

最新推荐文章于 2025-03-16 13:39:04 发布

阅读量1.9k

点赞数 3

分类专栏：神经网络与机器学习笔记文章标签：正则化理论

本文链接：https://blog.csdn.net/moge19/article/details/84203799

版权

神经网络与机器学习笔记专栏收录该内容

40 篇文章

订阅专栏

1 、引言

在监督学习算法中，尽管过程不同，但它们都有一个共同点:
通过样本训练一个网络，对于给定的输入模式给出输出模式，等价于构造一个超平面（即多维映射），用输入模式定义输出模式。
从样本中学习是一个可逆的问题，因为其公式是建立在由相关直接问题的实例中获得的知识之上，后一类问题包含潜在的未知物理定律，但是，在现实情况下我们通常发现训练样本会受到极大的局限：
训练样本包含的信息内容通常不能够充分地由自身唯一地重构出未知的输入输出映射，因此就产生了机器学习的过拟合的可能性
为了克服这个严重的问题，可以使用正则化方法，其目的是通过最小化如下的代价函数的方法把超平面重构问题的求解限制在压缩子集中：
（正则化代价函数）=（经验代价函数）+（正则化参数）x（正则化项）
给定一个训练样本，假设经验风险或标准代价函数可以由误差平均和定义。附加的正则化算子是用来平滑超平面重构问题的解。因此，通过选择一个适当的正则化参数，正则化代价函数提高了在训练样本的精度和解的光滑程度之间的折中。

2、良态问题

假设有一定义域 $X$ 和一个值域 $Y$ ，其中通过一个固定但未知的映射关系 $f$ 关联，如果满足以下三个条件（Hadamard条件），那么重构映射 $f$ 的问题就被称为是良态的。
（1）存在性对于每个输入向量 $x\in X$ ，存在一个输出 $y = f (x)$ ，其中 $y\in Y$ 。
（2）唯一性对于任意输入向量对x， $t\in X$ ，有 $f (x) = f (t)$ 当且仅当 $x = t$
（3）连续性映射 $f$ 是连续的；即对于任意的 $\varepsilon >0$ ，存在 $\delta = \delta(\varepsilon)$ 使得条件 $\rho _x(x,t)<\delta$ 蕴含 $\rho _y(f(x),f(t))<\varepsilon$ 。
不满足上述任意条件，则称为病态的。

3、Tikhonov正则化理论

一种解决病态问题的方法即，1963年Tikhonov提出的方法，即正则化。其基本思想就是通过某些含有解的先验知识的非负的辅助泛函来使解稳定，先验知识的一般形式涉及假设输入输出映射函数是光滑的，即：
对于一个光滑的输入输出映射，相似的输入对应着相似的输出。

Tikhonov正则化理论包括两项：
（1）误差函数，该项用 $\varepsilon _s(F)$ 表示，以逼近函数 $F(x_i)$ 和训练样本 $x_i,d_i)$ 的形式定义，对应最小二乘估计，其代价函数为：
$\varepsilon _s(F) = \frac{1}{2} \sum_{i=1}^{N}(d_i-F(X_i))^2 \tag {式1}$

（2）正则化项，用 $\varepsilon _c(F)$ 表示,其定义为：
$\varepsilon _c(F) =\frac{1}{2} ||DF||^2 \tag {式2}$
其中 $\varepsilon _c$ 中下标c代表复杂度，D是线性微分算子。在正则化理论中，用于最小化的最小二乘损失量为

$\varepsilon (F) = \frac{1}{2} \sum_{i=1}^{N}(d_i-F(X_i))^2 + \frac{1}{2} \lambda||DF||^2 \tag {式3}$

3、Tikhonov正则化应用

（1）、回归问题
（2）、分类问题
（3）、结构预测

4、Tikhonov泛函的Frechet微分

为进行代价泛函 $\varepsilon (F)$ 的最小化，首先需要求 $\varepsilon (F)$ 微分的规则，可以用Frechet微分来处理这件事。在初等微积分中，曲线上某点的切线是在该点邻域上的曲线的最佳逼近直线。Frechet微分可以理解为一个最佳局部线性逼近。Frechet微分可以定义为：
$\varepsilon (F) =\left[ \frac{d}{d\ \beta} \varepsilon (F+ \beta h) \right]_{\beta=0} \tag {式4}$
对于所有的 $\in H$ ，函数 $F (x)$ 为泛函 $\varepsilon (F)$ 的一个相对极限的必要条件是，泛函 $\varepsilon (F)$ 的Frechet微分 $\varepsilon (F，h)$ 在 $\varepsilon (F)$ 处均为零，表示为：
$\varepsilon (F,h) = d \varepsilon_s (F,h) +\lambda d \varepsilon_c (F,h) =0 \tag {式5}$
计算最小二乘估计标准误差项 $\varepsilon _s(F)$ 的Frechet微分如下：
$\varepsilon _s(F) = \left[ \frac{d}{d\ \beta} \varepsilon _s(F+ \beta h) \right]_{\beta=0}= \left[ \frac{1}{2} \frac{d}{d \beta} \sum _{i=1} ^N \left[ d_i - F(x_i) - \beta h(x_i)\right] ^2\right]$ $=-\sum_{i=1} ^{N} \left[d_i - F(x_i)\right] h(x_i) \tag {式6}$

5、Riesz表示理论

为了继续处理Hibert空间（详见博文 https://blog.csdn.net/baimafujinji/article/details/50528565）中Frechet微分问题，引入Riesz表示理论。其描述如下：
令 $f$ 为Hibert空间 $H$ 上的一个有界线性泛函。存在一个 $h_0 \in H$ ，使得 $f(h)=<h,h_0>_H 对于所有h\in H$
且 $f|| = ||h_0||_H$
其中 $h_0$ 和 $f$ 在各自的空间上都存在范数。
这里所用的符合 $lt;.,.>_H$ 表示 $H$ 空间上两个函数的内积（标量）
因此可以将式(6)中的Frechet微分 $\varepsilon _s(F,h)$ 重写如下：
$\varepsilon _s(F,h) = - <h,\sum _{i=1} ^N(d_i -F)\delta_{x_i}>_H \tag {式7}$
其中 $\delta_{x_i}$ 表示以 $x_i$ 为中心的x的Dirac delta分布（脉冲函数），即
$\delta_{x_i}(x) = \delta (x-x_i) \tag {式8}$
用上述方法计算式（2）可以得出（假设 $\in L_2$ ):

$d\varepsilon _c(F) =\frac{d}{d \beta} \varepsilon _c(F + \beta h)|_{\beta = 0} = \frac{1}{2} \frac{d}{d \beta} \int_{R^m}(D[F+ \beta h]) ^2 dx|_{\beta =0}$
$\int_{R^m}D[F+ \beta h]Dh dx|_{\beta =0} =\int_{R^m}DFDh dx = <Dh,DF>_H \tag {式9}$

6、Euler-拉格朗日方程

给定一个线性微分算子 $D$ ，可以确定它的伴随算子 $\tilde{D}$ ，使得对于一对足够可微且满足恰当的边界条件的函数 $u (x)$ 和 $v (x)$ 有：
$\int_{R^m} u(x)Dv(x) dx = \int_{R^m}v(x) \tilde{D} u(x)dx \tag {式10}$
将D看作一个矩阵，则伴随算子 $\tilde{D}$ 的作用类似于一个转置矩阵的作用。
比较（式9）和（式10），可得出如下恒等式：
$u (x) = D F (x)$
$D v (x) = D h (x)$
根据式10，可以得到如下等式：
$d\varepsilon _c(F) =\int_{R^m} h(x) \tilde{D}DF(x)dx = <h,\tilde{D}DF>_H \tag {式11}$
其中 $\tilde{D}$ 是 $D$ 的伴随算子。
根据式7和式11代入式5可以重新得到：
$\varepsilon (F,h) =<h，[\tilde{D}DF -\frac{1}{\lambda} \sum_{i=1}^N(d_i - F)\delta_{x_i} ]> \tag {式12}$
因为正则化参数 $\lambda$ 通常取开区间 $(0,\infty)$ 上的某个值，所以当且仅当下列条件在广义函数 $F=F_{\lambda}$ 下满足时，对于空间 $H$ 中所有的函数 $h (x)$ ，Frechet微分 $\varepsilon (F)$ 才为零：
$\tilde{D}DF_{\lambda} -\frac{1}{\lambda} \sum_{i=1}^N(d_i - F)\delta_{x_i} = 0$
即：
$\tilde{D}DF_{\lambda} = \frac{1}{\lambda} \sum_{i=1}^N(d_i - F_{\lambda}(x_i))\delta_{x-x_i} \tag {式13}$

7 Green函数

式13 表示逼近函数 $F_{\lambda}$ 的偏微分，该方程的解是由方程右边的积分变换组成的。想求解该方程，现对Green函数进行介绍。
令 $G(x,\xi)$ 是表示x和 $\xi$ 函数，向量x作为参数，而向量 $\xi$ 则作为自变量，对于给定的线性微分算子L，规定 $G(x,\xi)$ 以下条件
（1）当固定 $\xi$ ， $G(x,\xi)$ 是 $x$ 函数，且满足规定的边界条件；
（2）除了点 $\xi$ 外， $G(x,\xi)$ 对于x的倒数是连续的，倒数的次数由线性算子L的阶数决定。
（3） $G(x,\xi)$ 看作x的函数，除了点 $x=\xi$ 奇异点外，它满足偏微分方程：
$LG(x,\xi)=0 \tag{式14}$
也即函数 $G(x,\xi)$ 满足（在广义函数的意义下）
$LG(x,\xi) = \delta(x - \xi) \tag{式15}$
上述函数 $G(x,\xi)$ 叫做微分算子 $L$ 的 $G r e e$ 函数， $G r e e n$ 函数对于线性微分算子的作用类似于一个矩阵的逆矩阵对该矩阵方程的作用。
令 $\psi(x)表示一个关于 x \in R^{m_0}$ 的连续或者分段连续的函数，那么函数
$\int_{R^m} G(x,\xi)\varphi(\xi)d\xi \tag{式16}$ 就是微分方程
$\varphi(x) \tag{式17}$ 为了说明 $F (x)$ 为式17的解，将微分算子用于式16中，可得：
$L\int_{R^{m_o}} G(x,\xi)\psi(\xi)d\xi =\int_{R^{m_o}} L G(x,\xi)\varphi(\xi)d\xi \tag{式18}$
微分算子L将 $\xi$ 视为常量，它作用于 $G(x,\xi)$ 时仅将其视为x的函数。将15式代入18式中有
$\int_{R^{m_o}} \delta(x - \xi) \varphi(\xi)d\xi$
利用Diract Delta函数的性质，可得
$\int_{R^{m_o}} \varphi(\xi) \delta(x - \xi)d(\xi) = \varphi(\xi)$
即 $=\varphi(x)$

8 正则化问题的解

令 $\tilde{D}D$
$\varphi (x) = \frac{1}{\lambda} \sum_{i=1}^N[d_i - F(x_i)] \delta( \xi - x_i) \tag{式19}$
根据式15，有
$F_{\lambda} = \int_{R^{m_0}} G(x,\xi)\lbrace \frac{1}{\lambda} \sum_{i=1}^N[d_i - F(x_i)] \delta( \xi - x_i)\rbrace d\xi$
$\frac{1}{\lambda} \sum_{i=1}^N(d_i - F(x_i))\int_{R^{m_0}} G(x,\xi) \delta( \xi - x_i) d\xi \tag{式20}$
利用Dirac Delta函数的筛选性质，可以得到式13的解如下：
$F_{\lambda}(x) = \frac{1}{\lambda} \sum_{i=1}^N [d_i - F(x_i)] G(x,x_i) \tag{式21}$
式21说明正则化问题的最小化解 $F_\lambda(x)$ 是N个 $G r e e n$ 函数的线性叠加。 $x_i$ 代表扩展中心，权值 $[d_i - F(x_i)]/\lambda$ 代表展开系数。换言之，正则化问题的解在光滑函数的空间的一个N维子空间上，以 $x_i,i = 1,2,3,...,N$ 为中心的一组Green函数{ $G(x,x_i)$ }组成了该空间的基。

9 确定展开系数

令
$w_i = \frac{1}{\lambda} [d_i - F(x_i)], i=1,2,....,N \tag{式22}$
因此式21可以改写成如下形式：
$F_{\lambda} (x)= \sum _{i=1} ^Nw_iG(x,x_i) \tag{式23}$
分别在 $x_j(j = 1,2,...,N$ 上计算式23的值，可得
$F_{\lambda} (x_j)= \sum _{i=1} ^Nw_iG(x_j,x_i) \tag{式24}$
引入如下定义：
$F_{\lambda} = [F_{\lambda}(x_1),F_{\lambda}(x_2)....F_{\lambda}(x_N)]^T \tag{式25}$
$[d_1,d_2,d_3,...,d_N]^T \tag{式26}$
$\begin{vmatrix} G(x_1,x_1) &G(x_1,x_2) & ... &&G(x_1,x_N) \\G(x_2,x_1) &G(x_2,x_2) & ... &&G(x_2,x_N) \\ &....\\\\ G(x_N,x_1) &G(x_N,x_2) & ... &&G(x_N,x_N) \\ \end{vmatrix} \tag{式27}$
$[w_1,w_2,...,w_T] ^T \tag{式28}$
将式22和式23分别写成矩阵形式：
$\frac{1}{\lambda}(d - F_{\lambda}) \tag{式29}$
和
$F_{\lambda} = Gw \tag{式30}$
消去式29和式30中中的 $F_{\lambda}$ ,重新调整可得
$(G+\lambda I) w = d$