L1正则项与稀疏性

最新推荐文章于 2024-04-19 08:50:23 发布

大眼呆萌君

最新推荐文章于 2024-04-19 08:50:23 发布

阅读量585

点赞数

分类专栏： Optimization 百面机器学习

本文链接：https://blog.csdn.net/my_god2008/article/details/103676281

版权

本文从几何、微积分和贝叶斯先验三个角度探讨L1正则化导致模型参数稀疏性的原理。解空间形状分析表明，L1约束使最优解倾向于边界，L1范数形成角形区域促进稀疏；微积分角度通过目标函数导数解释，L1正则化使损失函数在非零参数处单调，最小值出现在原点；贝叶斯先验视角，拉普拉斯先验比高斯先验更倾向于参数为0，增强稀疏性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

题目（164）：L1正则化使得模型参数具有稀疏性的原理是什么？

回答角度：

几何角度，即解空间形状
微积分角度，对带L1限制的目标函数求导
贝叶斯先验

解空间形状

Step 1. 正则条件和限制条件的等价性
Step 2. L1范数与L2范数的几何形状
Step 3. 如果原问题目标函数的最优解不在解空间内，那么约束条件下的最优解一定是在解空间的边界上。
$\textcolor{red}{\text{[复习KKT, complementary slackness]}}$

微积分、函数叠加

损失函数加入L1正则后，目标函数变为 $J(\bm \theta) = L(\bm \theta) + c \|\bm \theta\|_1$ 。When $\bm \theta>0$ , the gradient of $\|\bm \theta\|_1$ equals $c$ ; when $\bm \theta<0$ , the gradient of $\|\bm \theta\|_1$ equals $- c$ . Therefore, if the gradient of $L(\bm \theta)$ lies within $(- c, c)$ , the gradient of $J(\bm \theta)$ is always negative for $\bm \theta<0$ , indicating that $J(\bm \theta)$ is monotonically decreasing on the left of the origin; its gradient is always positive for $\bm \theta>0$

最低0.47元/天解锁文章