【现代信号处理】 07 - 正则化

最新推荐文章于 2024-05-12 00:00:00 发布

Ciaran-byte

最新推荐文章于 2024-05-12 00:00:00 发布

阅读量673

点赞数 4

分类专栏：数学基础文章标签：概率论机器学习深度学习

本文链接：https://blog.csdn.net/qq_41741344/article/details/120196507

版权

数学基础专栏收录该内容

46 篇文章 72 订阅

订阅专栏

正则化 Regularization

1. 问题引入

1.1 拟合的准确性和过拟合

现在我们有一些数据，我们希望对数据进行拟合。拟合的过程就是一个建模的过程。

在这里插入图片描述

通常我们并不知道f(x)和x的关系，我们猜测这是个线性关系，在最小均方误差意义下，最小二乘就是最好的线性估计。

在这里插入图片描述

但是线性的，并不一定是最好的，因为我很多点并不在拟合的直线(红色)上。如果我们希望把这些点全部利用起来，比如我们用分段线性的方法，构造了新的拟合曲线(黄色)。

拟合没有好坏之分，对于现在的这些数据，黄色曲线更加贴切，但是，如果我们使用黄色曲线去继续做数据预测，预测结果很难做到准确，因为黄色的曲线的拟合做过了，过于要求把现有的数据给用上了。很大程度上，过拟合产生的根本原因就是，模型过于复杂。

$\\ \Downarrow \\ Overfit\\ \Downarrow\\ Overcomplex$

模型过于复杂之后，预测就会不准确，因为模型的可用度降低，我们也没有从根本上抓住数据产生的规律

1.2 Bias-Variance Trade-off

现在我们换一个角度来考虑拟合的事情。就是Bias-Variance Trade-Off的角度。我们的目标是通过数据x，搞清楚f(x)是什么，我们利用现有的数据做训练集，产生一个拟合。然后通过拟合结果可以产生预测。预测数据就是用来与验证集一起做检验的

$Trade-off\\ Data(Training) \\ (Fitting) \\ Prediction(Testing)$

我们把数据标记为D，预测用的数据标记为D。我们所做的工作就是产生基于D的一个函数，然后对检验数据进行检验。

$\Rightarrow g_D(Z)$

我们希望新的数据表现，与我们预测的数据的表现是一致的，因此有目标函数

$g_D(Z) - f(Z))^2$
我们希望估计误差能够达到最小。同时，由于训练数据D和预测数据Z都是随机变量，所以，这里我们要取期望。

$minE_{D,Z}[(g_D(Z) - f(Z))^2]$

上式可以转化为条件期望

$E_{D,Z}[(g_D(Z) - f(Z))^2]=E_{Z}[E_{D|Z}((g_D(Z) - f(Z))^2)]$

我们对式子进行变形

$E_{Z}[E_{D|Z}((g_D(Z) - f(Z))^2)] = E_{Z}[E_{D|Z}((g_D(Z) -\bar g(Z)+\bar g(Z)- f(Z))^2)] \\$

其中

$\bar g(Z) = E_D(g_D(Z))$

$E_{Z}[E_{D|Z}((g_D(Z) -\bar g(Z)+\bar g(Z)- f(Z))^2)] \\ = E_{Z}[ E_{D|Z}((g_D(Z) -\bar g(Z))^2+ E_{D|Z}((\bar g(Z)- f(Z))^2) +2* E_{D|Z}(g_D(Z) -\bar g(Z))*(\bar g(Z)- f(Z))] \quad\quad(1)$

我们来证明一下交叉项为0

$E_{D|Z}(g_D(Z) -\bar g(Z))*(\bar g(Z)- f(Z))$

因为条件概率中，对Z来说是没有随机性，后面可以放到外面，同时\bar g已经是期望了，也没有随机性，也可以放到期望外面

$E_{D|Z}(g_D(Z) -\bar g(Z))*(\bar g(Z)- f(Z)) = (\bar g(Z)- f(Z)) * E_{D|Z}(g_D(Z) -\bar g(Z))) \\ = (\bar g(Z)- f(Z))*[E_{D|Z}(g_D(Z))-\bar g(Z)] \\ = (\bar g(Z)- f(Z))*[E_{D|Z}(g_D(Z)) - E_D(g_D(Z))] =0$

所以(1)式可变为
$E_{Z}[E_{D|Z}((g_D(Z) - f(Z))^2)] = E_{Z}[ E_{D|Z}((g_D(Z) -\bar g(Z))^2+ E_{D|Z}((\bar g(Z)- f(Z))^2)] \\ = Variance + Bias$

得到的两项分别是方差和偏差。因此，我们做的拟合，实际上就是包括方差和偏差两部分。

我们从机器学习的角度来思考这件事情。什么是训练结束呢?其实训练结束就是个理想概念，当我们拟合的模型方差足够小的时候，就认为训练好了，然后再看跟实际数据的偏差有多少，然后继续训练。因为往往我们训练的数据都是少的可怜，我们训练的时间也是有限的，因此一般差不多就行了，很难达到训练结束的标准。

所以，我们知道了，我们数据拟合的两部分误差的意义是，方差部分表示离完全训练好还有多远，偏差部分代表训练好了以后距离目标还有多远。

1.3 正则化引入

我们在训练中真正能够控制好的只有前面那部分。如果我们想让训练过程变得可控，我们必须采用简单的模型。这里我们举个例子，有时候训练可能会产生这样的问题，就是我们训练的数据很好，得到的拟合的误差很小，但是使用测试集就很差了。很大的原因就是，我们训练的时候模型过于复杂，以致于得到的模型是个过拟合的，因此得到的模型效果很差。

这里有个原则叫做Occam’s Razor，其含义是，如果我们能用简单的模型去处理问题，就不要使用复杂的模型。但是简单的模型就会有其他代价。因为偏差可能会很大。不过我们往往并不关心偏差，因为我们很多时候对目标并不清晰，数据量也是有限的，我们应该更加着眼于我们能够控制的事情上。

那么我们应该如何使用简单的模型呢?首先，能用线性的模型，就不要使用非线性的模型。

其次，假设我们的目标就定在线性模型上了，其复杂性体现在线性模型拟合的因子数量上。

假设有这样的模型

$\sum_{k=1}^N \omega_kZ_k \quad\quad N>>1 \Rightarrow minE(Y- \sum_{k=1}^N \omega_kZ_k)^2$

我们有这样的问题，这里面使用的拟合因子是否都是重要的。如果我们评价因素一旦多了起来，我们又可能陷入过拟合的风险去了，因为我们对系数没有任何的约束，系数是任意变化的。

往往为了达到更好的拟合结果，有一些因素的系数会增长，而有一些因素的系数会很小，使得这些因素的影响变得微乎其微。这就好比足球比赛选球员，一旦主力球员全部都受伤了，没法上场，选了一些替补，比赛结果相比也不会很好。因此一旦在拟合的过程中，出现了系数极端分布的情况，最终很可能没有办法得到一个好的结果。

因此，我们希望对每个因素的权力加以限制。避免少数人得到大多数的权力这种情况。也就是一方面要让主力得到更多的权力，但是同时，主力也不会单打独斗，要让更多人得到平衡的发挥。

因此，我们希望引入一种方法来解决两个问题

第一，对系数进行约束，避免产生系数极端分布的情况
第二，识别拟合的因素中，哪些是重要的影响因素。然后简化模型

这种方法就是正则化。

2. 吉洪诺夫正则化

2.1 模型建立

正则化有很多种形式，而吉洪诺夫正则化主要是用来解决对系数的约束问题的。为了避免系数产生极端分布的情况，我们就要对系数进行约束，使得各个因素的权力得到分散，我们可以使用这样的方法来进行约束

$\sum_{k=1}^N \omega_k^2 \leq P$

我们就要对系数进行约束，通过约束完成我们的目的。使得我们的模型，不至于进入到极端的情况中。增加能够起到分散权力的目的的约束。因此，我们要求系数的平方和不能太大。如果我们使用上这个约束条件，目标函数就变成了

$\sum_{k=1}^N \omega_kZ_k)^2 + \lambda(\sum_{k=1}^N \omega_k^2 - P)$

由于P是常数，我们把目标方程修改为。这个式子就是吉洪诺夫正则化Tikhonov Regularization。吉洪诺夫正则化是一种L2正则化，要取模型参数二范数

$||\omega||^2_2$

$\quad Regularization\\ E(Y- \sum_{k=1}^N \omega_kZ_k)^2 + \lambda(\sum_{k=1}^N \omega_k^2 )$

目标函数表示为

$\omega^TZ)^2 + \lambda||\omega||^2]$

$(Z_1,...,Z_N)^T, \omega = (\omega_1,..,\omega_N)^T \\$

我们使用吉洪诺夫正则化，一方面是为了求得准确的拟合结果，另一方面是为了约束模型，获得更加简单的结果。因此λ实际上就是在控制两个目标的比例。如果λ是0，那么就变成了最小二乘问题。如果λ是∞，那么就意味着前面一部分可以忽略了，并且为了获得一个最简单的模型，ω只能是0。这两种情况都不是我们希望看到的。

$\lambda =0 \Rightarrow LS \\ \lambda = \infty \Rightarrow \omega = 0$

2.2 对λ意义的探索

这里我们希望继续深入挖掘一下λ对这个系统起到了怎么样的影响。

假设我们有若干用于拟合的数据。其中Z是个N维的数据，为Y是个一维的数据。

$(Z_1,Y_1),(Z_2,Y_2),...,(Z_n,Y_n) \quad\quad Z_k \in R^N,Y_k \in R,k=1,...,n$

目标函数为
$\sum_{i=1}^{n}E(Y_i- \omega^TZ_i)^2 + \lambda||\omega||^2 \Rightarrow (Y-Z\omega)^T(Y-Z \omega) + \lambda||\omega||^2$

$\begin{pmatrix} Z_1 \\ ... \\ Z_n \end{pmatrix} \in R^{n*N},\omega \in R^N$

展开
$L(\omega) = Y^T*Y -Y^TZ \omega - \omega^TZ^T*Y + \omega^T*Z^T*Z*\omega + \lambda*\omega^T*\omega$

求梯度
$\nabla_\omega L(\omega) = - Z^TY - Z^TY + 2(Z^TZ)\omega + 2\lambda \omega = 0$

计算可得

$\omega = (Z^TZ +\lambda I)^{-1}Z^T Y$

我们可以用这个结果与最小二乘解进行比较。我们发现，λ是0的时候，这个结果就是最小二乘解

我们根据这个结果可以对λ的作用进行更加深入的分析。

首先，我们知道Z^T*Z一定是非负矩阵，但是不一定是正定的。因此，最小二乘解不一定存在，因为这个矩阵不一定可逆。而且Z必须要是个长矩阵，也就是方程数量必须大于未知数数量，因为最小二乘解的是一个超定矩阵。并且要求这个矩阵是列满秩的。现在，在后面加入了一部分新东西，这部分一定是正的。因此，(Z^TZ+λI)这个矩阵一定是个可逆的，因此，λ使得这个方程变成良态的了。这种处理方法在信号处理中叫做对角加载。在统计上叫做岭回归，因为相当于顶起来一堵墙。所以，吉洪诺夫正则化、对角加载、岭回归是一个意思。他们的目的都是使得方程变成良态的。

$\quad Regression \quad 岭回归 \\ Diagonal \quad Loading 对角加载 \\ Tikhonov \quad Regularization 吉洪诺夫正则化$

第二个值得探讨的是，得到的这个解并不是一个无偏估计的解

我们可以来证明一下,首先要凑一个最小二乘解

$\omega_{Ridge} = (Z^TZ +\lambda I)^{-1}Z^T Y \\ =(Z^TZ +\lambda I)^{-1} (Z^TZ)(Z^TZ)^{-1}Z^T Y \\ = (I+\lambda(Z^TZ)^{-1})^{-1}*(Z^TZ)^{-1} * (Z^TZ)(Z^TZ)^{-1}Z^T Y \\ = (I+\lambda(Z^TZ)^{-1})^{-1} * \omega_{LS}$

矩阵具有这样的性质，当||A|| 小于1时

$(I+A)^{-1} = \sum_{k=0}^{\infty}(-1)^k A^k \quad\quad ||A|| <1$

因此，当λ很小的时候，有这样的式子成立

$\lambda << 1 \\ \omega_{Ridge} = (I+\lambda(Z^TZ)^{-1})^{-1} * \omega_{LS} \\ = \sum_{k=0}^{\infty}(-1)^k (\lambda(Z^TZ)^{-1})^k \\ = (I - \lambda(Z^T Z)^{-1} + \lambda^2(Z^T Z)^{-2}+...) \omega_{LS} \\ = (I - \lambda(Z^T Z)^{-1} )\omega_{LS} + O(\lambda)$

因为最小二乘是无偏的，加上一个高阶无穷小以后，就是偏差的了。

一般来说λ和系数ω具有这样的关系

在这里插入图片描述

当λ很大的时候，ω的活力没有体现出来，受到严重的约束。当λ是0的时候，ω完全不受约束，会产生过拟合问题。因此应该选择一个适合的λ，来在两个问题之间做取舍。

2.3 奇异值分解与吉洪诺夫正则化

2.3.1 奇异值分解

从另外一个角度看待吉洪诺夫正则化，也就是奇异值分解的角度。

奇异值分解的定义如下。

$\in R^{n*N}, A = U \Sigma V^T, U \in R^{n*n},V\in R^{N*N},\Sigma \in R^{n*N} \\ U*U^T = U^T*U = I， V*V^T = V^T * V = I , \Sigma = \begin{pmatrix} D & 0 \\ 0 & 0 \end{pmatrix}$
其中U和V都是正交矩阵。∑是对角阵的扩充矩阵。

我们类比下矩阵的特征值分解,特征分解需要满足两个条件

只能对方阵做
方阵必须是对称的

$\in R^{n*n}, A^T = A \Rightarrow A = U * \Sigma*U^T \\ U^T*U = I ,\Sigma \quad is \quad diag$

奇异值分解是对称具体特征分解的推广。

不要求是方阵
不要求对称
中间是个对角阵补0

如果A能做奇异值分解，则

$A^T*A = V \Sigma ^T \Sigma V^T \\ A* A^T = U \Sigma \Sigma^T U^T$
奇异值矩阵的对角线叫做奇异值

2.3.2 吉洪诺夫正则化分析

2.3.2.1 公式变形

我们来深入分析一下吉洪诺夫正则化

$\omega_{Ridge} = (Z^TZ +\lambda I)^{-1} Z^T Y$

对Z做奇异值分解

$U*\Sigma *V^T \\ Z^T*Z = V* \Sigma^T * \Sigma* V^T$

代入得

$\omega_{Ridge} = (V* \Sigma^T * \Sigma* V^T +\lambda I )^{-1}*(U*\Sigma *V^T )^T*Y \\ = (V*(\Sigma^T * \Sigma + \lambda*I)*V^T)^{-1} * (V*\Sigma^T*U^T)*Y \\ = [V^T]^{-1}*(\Sigma^T * \Sigma + \lambda*I)^{-1}*V^{-1}*(V*\Sigma^T*U^T)*Y \\ = V*(\Sigma^T * \Sigma + \lambda*I)^{-1}*\Sigma^T*U^T*Y$

因为Z是一个方程数量超过变量数量的矩阵，因此是个细长的矩阵，因此奇异值分解的∑具有这样的形式

$\Sigma = \begin{pmatrix} D \\ 0 \end{pmatrix} \\ \Sigma^T = \begin{pmatrix} D &0 \end{pmatrix}$

把上面的式子写一下

$(\Sigma^T * \Sigma + \lambda*I)^{-1}*\Sigma^T =\begin{pmatrix} (D^T*D +\lambda I)^{-1}D &0 \end{pmatrix}$

从结构中，我们可以分析出来，这个矩阵是个对角阵补0矩阵，对角线元是

$[(D^T*D +\lambda I)^{-1}D]_{ii} = \frac{d_i}{d_i^2+\lambda}$

$D = diag(d_1,...,d_N)$
因此

$\omega_{Ridge} = V*\begin{pmatrix} (D^T*D +\lambda I)^{-1}D &0 \end{pmatrix}*U^T*Y$

估计结果为
$Z*\omega_{Ridge} = U*\Sigma*V^T*V*\begin{pmatrix} (D^T*D +\lambda I)^{-1}D &0 \end{pmatrix}*U^T*Y \\ = U* \begin{pmatrix} D \\ 0 \end{pmatrix}*\begin{pmatrix} (D^T*D +\lambda I)^{-1}D &0 \end{pmatrix}*U^T*Y \\ = \begin{pmatrix} U_{(1)} &U_{(2)} \end{pmatrix} * \begin{pmatrix} D(D^T*D +\lambda I)^{-1}D & 0 \\ 0& 0 \end{pmatrix}* \begin{pmatrix} U_{(1)}^T \\ U_{(2)}^T \end{pmatrix}*Y \\ = U_{(1)}*(D(D^T*D +\lambda I)^{-1}D)*U_{(1)}^T*Y \quad\quad(i)$
U₍₁₎和U₍₂₎有如下定义

$U_{(1)} \sim row = N \\ U_{(2)} \sim row = n-N$

令U₍₁₎

$U_{(1)} = (U_1,...,U_N)$

(i)式可化为

$U_{(1)}*(D(D^T*D +\lambda I)^{-1}D)*U_{(1)}^T*Y \\ = \sum_{k=1}^{N}(\frac{d_k^2}{d_k^2+\lambda})U_k (U_k^T*Y) \\ = \sum_{k=1}^{N}(\frac{d_k^2}{d_k^2+\lambda}) (U_k^T*Y)*U_k$

后面那部分，U^T是横着的，Y是横着的，相乘是个数，所以可以交换次序

2.3.2.2 没有λ的情况

当λ是0的时候，得到的就是最小二乘解

$\lambda = 0 \Rightarrow \sum_{k=1}^{N} (U_k^T*Y)*U_k$

与最小二乘进行比较
$\omega)^T(Y-Z \omega) \\ \Downarrow \\ \omega_{LS} = (Z^TZ)^{-1}Z^T Y \\ \Downarrow \\ \hat Y = Z*\omega_{LS} \\ =Z(Z^TZ)^{-1}Z^TY$

最小二乘相当于Y在一组规范正交基上做了投影。而奇异值分解的本质就是做正交化。

$Z = (Z_1,...,Z_N) \\ U_{(1)} = (U_1,...,U_N)$

U张成的向量空间与Z张成的向量空间是一样的。只不过U是一组规范正交基。因此Y在U上的投影与Y在Z上的投影速度等价的。

$Span(Z) = Span(U) \\ Proj_ZY = Proj_U Y$

2.3.2.3 有λ的情况

没有λ的时候，U里面所有的向量都是等同看待的，有了λ之后，对U矢量看法变了，开始有权重了。d越大，也就是奇异值越大，这个d对应的正交基的权重就变大了。

我们可以与PCA进行类比

在这里插入图片描述

实际上，主成分分析得到的是能量的体现，也就是能量最高的方向

而对于吉洪诺夫正则化来说，奇异值分解得到的正交基U就是新的坐标系，奇异值d表示在坐标轴上的能量体现，d越大，能量就越高。我们通过这个d，能够让我们知道哪些参数是比较重要的，能够让我们筛选有价值的参数。就体现出了各个方向的重要性。然后就能够简化模型了。这也叫做模型选择。选择重要的参数。

因此，正则化也可以起到一个自然选择的作用。

3. L1正则化

3.1 L1正则化和L2正则化的比较

这里我们回顾一下，正则化的目的是为了实现两个目的

通过正则化的约束，使得模型不会出现极端分布的情况
通过正则化对影响因素进行辨别，判断哪些是重要因素，从而能够简化模型

L2正则化，也就是吉洪诺夫正则化，是用来解决第一个问题的，在吉洪诺夫正则化的约束下，使得系数不会极端分布，同时也让方程变得良态。

而这里我们使用的L1正则化，是为了解决第二个问题的，也就是判断哪些因素是重要的因素，从而选择合适的特征，进行简化模型

$L^2 \quad Regularization \quad ||\omega||^2_2 \quad (Tikhonov) \\ L^1 \quad Regularization \quad ||\omega||_1 = \sum_{k=1}^N|\omega_k|$

那么L1正则化和L2正则化有什么区别呢?

我们先从L2正则化开始。

L2正则化的约束条件的模的平方和小于某个数值
$||\omega||_2^2 \leq P$

我们取二维的来看，也就是
$\omega_1^2 + \omega_2^2 \leq P$

这是一个圆的方程。根据拉格朗日数乘法求条件极值问题，我们知道，最优解就是两个函数的交点处

在这里插入图片描述

也就是我们的线性拟合模型，与圆不断靠近，得到切线。因为约束条件是个圆，切线在不断改变位置的过程中，ω₁和ω₂都是可以连续变化的，变化的时候就是切点改了而已。而且，因为最优解是在圆周上，所以，总体上ω的取值不会有很多极端的情况。

而如果是L1正则化，就是模的和小于某个值
$|\omega_1| + |\omega_2| \leq P$

这个约束条件是个菱形。因此，大部分情况，最优解是在菱形顶点上。线性模型与菱形边缘重合的概率不是很高

在这里插入图片描述

而最优解在菱形的顶点上就意味着，得到的解是个稀疏解–Sparse Solution。也就是只有部分ω是非零0值，而很多的ω是零值，这样就是简化模型了。

3.2 L1正则化的求解

3.2.1 目标函数

使用L1正则化的目标函数是下式

$min(\sum_{i=1}^n(Y_i - \sum_{k=1}^NZ_{ik}\omega_k)^2 + \lambda \sum_{k=1}^N |\omega_k|)$

但是我们发现，L1正则化虽然能够得到稀疏矩阵，但是L1正则化求解有些棘手。因为绝对值是不好求导的。如果我们不关注零点的问题，那么绝对值求导得到的就是符号函数。但是我们要关心零点。这个时候怎么进行求解呢

$\frac{d}{dx}|x| = sgn(x)$

下面我们需要引入一些凸分析的理念 Convex Analysis(Optimization)。

因为我们发现这个目标函数是个凸函数。

3.2.2 凸函数的性质

凸函数具有两重要性质

性质一，凸函数弦上的值大于等于函数值

$f(x)\quad is \quad Convex \Leftrightarrow \forall x_1,x_2, \forall \lambda \in[0,1] \\ f(\lambda x_1 + (1-\lambda)x_2) \leq \lambda f(x_1) +(1-\lambda) f(x_2)$

在这里插入图片描述

性质二，凸函数的切线一定小于等于函数值

$f(x)\quad is \quad Convex \Leftrightarrow \forall x_1,x_2, \exists g \\ f(x_2) \geq f(x_1) + g^T (x_2-x_1)$

在这里插入图片描述

凸函数的性质不但对光滑的函数成立，对不光滑的函数也是成立的。对于光滑函数来说，g是导数/梯度，对于不光滑函数来说g是次梯度。次梯度是个集合

$\partial_xf(x) = \nabla_xf(x) \quad \text{ x is smooth point}$

$\partial_x|x| = x = \begin{cases} 1 & x>0 \\ [-1,1] &x = 0\\ -1& x<0 \end{cases}$

3.2.3 基于凸优化理论求解L1正则化

因为绝对值函数是个凸函数，因此我们可以利用凸优化理论去求解L1正则化。我们假设x₀是凸函数的最小值，那么0必定存在于这个点的次梯度中

$\text{f(x) is convex} \quad x_0 = argminf(x) \Rightarrow 0 \in \partial_x f(x_0)$

因此，我们只需要求一下目标函数的次梯度，让0落在次梯度区间里面就行。这里我们用一种简化方式进行求解，仅仅表示一下意思

$\partial_{w_k}(\sum_{i=1}^n(Y_i - \sum_{j=1}^NZ_{ij}\omega_j)^2 + \lambda \sum_{i=1}^N |\omega_i|) \\ = \partial_{w_k}((A_k+B_k\omega_k+C_k\omega_k^2)+\lambda \sum_{i=1}^{N}|\omega_i|) \\ = B_k + 2C_k \omega_k^2 + \lambda \partial_{w_k}|\omega_k| \\ = \begin{cases} B_k + 2C_k \omega_k^2 + \lambda & \omega_k>0 \\ [B_k + 2C_k \omega_k^2 - \lambda, B_k + 2C_k \omega_k^2 + \lambda] &\omega_k = 0\\ B_k + 2C_k \omega_k^2 - \lambda& \omega_k<0 \end{cases}$

因为中间的条件是ω_k=0,所以可以继续消项

$\begin{cases} B_k + 2C_k \omega_k^2 + \lambda & \omega_k>0 \\ [B_k - \lambda, B_k + \lambda] &\omega_k = 0\\ B_k + 2C_k \omega_k^2 - \lambda& \omega_k<0 \end{cases}$

我们只需要让0处于在解集中即可,分别让三个梯度区间等于0

$B_k + 2C_k \omega_k^2 + \lambda =0 \Rightarrow \omega_k = -\frac{B_k +\lambda}{2*C_k} \\ B_k + 2C_k \omega_k^2 - \lambda =0 \Rightarrow \omega_k = \frac{B_k +\lambda}{2*C_k}\\ 0 \in [B_k - \lambda, B_k + \lambda]$

Ciaran-byte

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【现代信号处理】 07 - 正则化

正则化 Regularization文章目录正则化 Regularization1. 问题引入1.1 拟合的准确性和过拟合1.2 Bias-Variance Trade-off1.3 正则化引入2. 吉洪诺夫正则化2.1 模型建立2.2 对λ意义的探索2.3 奇异值分解与吉洪诺夫正则化2.3.1 奇异值分解2.3.2 吉洪诺夫正则化分析2.3.2.1 公式变形2.3.2.2 没有λ的情况2.3.2.3 有λ的情况3. L1正则化3.1 L1正则化和L2正则化的比较3.2 L1正则化的求解3.2.1 目标函
复制链接

扫一扫