用拉格朗日乘子理解正则项时出现的问题

最新推荐文章于 2023-04-03 19:30:10 发布

w1016765655

最新推荐文章于 2023-04-03 19:30:10 发布

阅读量950

点赞数 1

分类专栏：回归分析机器学习数理统计文章标签：回归分析数理统计机器学习

本文链接：https://blog.csdn.net/w1016765655/article/details/90108255

版权

回归分析同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

机器学习

1 篇文章 0 订阅

订阅专栏

数理统计

1 篇文章 0 订阅

订阅专栏

用拉格朗日乘子理解正则项时出现的问题

对于一个预测模型：

\hat{y}=f({\theta_0, \theta_1,\dots,\theta_l};x_1,x_2,\dots,x_m)\tag{1}

其中，

\hat{y}

为预测值（标签）；

\{\theta_i \mid i\in[0,\,l]\}

为待估参数；

l + 1

为待估参数的个数；

\{x_j \mid j\in[1,\,m]\}

为输入值（特征）；

m

为输入值的维数。

通常采用最小二乘法估计模型(1)中的待估参数 $\{\theta_i|i\in[0,\,l]\}$ ，令 $\vec{\theta}=[\theta_0, \theta_1,\dots,\theta_l]^T$ ，即有优化模型：
$\begin{array}{l} {设计变量：\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,}\vec{\theta}\\ {目标函数：\,\,\,\,\,\,}J(\vec{\theta})=\sum_{k=1}^n(y_k-\hat{y_k})^2\Longrightarrow min \end{array} \tag{2}$
其中， $y_k$ 为真实值， $n$ 为训练样本的个数。

然而，为了减小 $|\vec{\theta}|$ （美其名曰：降低模型复杂度，防止模型过拟合，增强模型对新数据的预测能力链接：正则项的理解之正则从哪里来），通常会在(2)的目标函数后添加一个正则项，即把优化模型(2)变为优化模型(3)：
$\begin{array}{l} {设计变量：\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,}\vec{\theta}\\ {目标函数：\,\,\,\,\,\,}J(\vec{\theta})=\sum_{k=1}^n(y_k-\hat{y_k})^2+\lambda\sum_{i=0}^l\theta_i^2\Longrightarrow min \end{array} \tag{3}$
其中， $\lambda$ 为已知参数，它的值由经验选取（如：0.1）。

此时，若把 $\lambda$ 也当作一个设计变量（待估参数），即有优化模型(4)：

$\begin{array}{l} {设计变量：\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,}\vec{\theta};\,\lambda\\ {目标函数：\,\,\,\,\,\,}J(\vec{\theta})=\sum_{k=1}^n(y_k-\hat{y_k})^2+\lambda\sum_{i=0}^l\theta_i^2\Longrightarrow min \end{array} \tag{4}$

则由拉格朗日乘子法(链接：理解拉格朗日乘子法)可以把优化模型(4)反着变换为优化模型(5)：
$\begin{array}{l} {设计变量：\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,}\vec{\theta};\,\lambda\\ {目标函数：\,\,\,\,\,\,}J(\vec{\theta})=\sum_{k=1}^n(y_k- \hat{y_k})^2\Longrightarrow min\\ {约束条件：\,\,\,\,\,\,}h(\vec{\theta})=\sum_{i=0}^l\theta_i^2=0 \end{array} \tag{5}$
显然，当把 $\lambda$ 也当作一个设计变量（待估参数）时，由(5)中的约束条件可知，此时一定有 $\theta_0=\theta_1=\dots=\theta_l=\color{#F00}{0}\,$ ，即 $\vec{\theta}=\bf0$ 。换句话说，在目标函数中添加了正则项 $\sum_{i=0}^l\theta_i^2$ 后，不论 $\lambda$ 为多少，待估参数全为零。

这会出现很严重的问题，假如预测模型(1)为多元线性回归模型(6)：
$\hat{y}=\theta_0+\theta_1x_1+\dots+\theta_lx_l \tag{6}$
如果在估计 $\vec{\theta}$ 时加入了正则项，则不论 $\lambda$ 为多少，都会得出： $\hat{y}=0$ ，而这又与实际经验相违背，是荒谬的。

因此，怎样才能正确地从拉格朗日乘子法的角度理解正则项？

以下解释为本人对以上问题的个人看法

出现以上问题的根源在于把 $\lambda$ 也当作一个设计变量（待估参数），为了求优化模型(4)的目标函数的驻点，可对其每个变量求偏导（这里依然以多元线性回归模型为例）：
$\begin{cases} \frac{\partial J(\vec{\theta})}{\partial \theta_0}=\sum_{k=1}^n-2(y_k-\theta_0-\theta_1x_{k1}-\dots-\theta_lx_{kl})+2\lambda\theta_0=0 \\[2ex] \vdots\\ \frac{\partial J(\vec{\theta})}{\partial \theta_l}=\sum_{k=1}^n-2x_{kl}(y_k-\theta_0-\theta_1x_{k1}-\dots-\theta_lx_{kl})+2\lambda\theta_l=0 \\[2ex] \frac{\partial J(\vec{\theta})}{\partial \lambda}=\sum_{i=0}^l\theta_i^2=0 \end{cases} \tag{7}$
由(7)式的 $\sum_{i=0}^l\theta_i^2=0$ 可知 $\theta_0=\theta_1=\dots=\theta_l=0\,$ ，将其带入(7)式中的其他方程中可得：
$\begin{cases} \frac{\partial J(\vec{\theta})}{\partial \theta_0}=\sum_{k=1}^n-2y_k=0 \\[2ex] \vdots\\ \frac{\partial J(\vec{\theta})}{\partial \theta_l}=\sum_{k=1}^n-2x_{kl}y_k=0 \end{cases} \tag{8}$
方程组(8)是矛盾方程，因为它们不全为0，因此方程组(7)无解。也就是说，当把 $\lambda$ 作为设计变量后，优化模型(4)的目标函数 $J(\vec{\theta})$ 没有驻点，也就没有极值点了。现在再来定性地分析优化模型(4)的目标函数 $J(\vec{\theta})$ 的单调性，由 $\frac{\partial J(\vec{\theta})}{\partial \lambda}=\sum_{i=0}^l\theta_i^2$ 恒大于等于0可知， $J(\vec{\theta})$ 在 $\lambda$ 这一坐标维度上是单调递增的。并且可以从 $J(\vec{\theta})$ 的表达式直观地看出当 $\lambda\rightarrow-\infty$ 时， $J(\vec{\theta})\rightarrow-\infty$ 。