L1正则项与稀疏性

本文从几何、微积分和贝叶斯先验三个角度探讨L1正则化导致模型参数稀疏性的原理。解空间形状分析表明,L1约束使最优解倾向于边界,L1范数形成角形区域促进稀疏;微积分角度通过目标函数导数解释,L1正则化使损失函数在非零参数处单调,最小值出现在原点;贝叶斯先验视角,拉普拉斯先验比高斯先验更倾向于参数为0,增强稀疏性。
摘要由CSDN通过智能技术生成

题目(164):L1正则化使得模型参数具有稀疏性的原理是什么?

回答角度:

  1. 几何角度,即解空间形状
  2. 微积分角度,对带L1限制的目标函数求导
  3. 贝叶斯先验

解空间形状

Step 1. 正则条件和限制条件的等价性
Step 2. L1范数与L2范数的几何形状
Step 3. 如果原问题目标函数的最优解不在解空间内,那么约束条件下的最优解一定是在解空间的边界上。
[复习KKT, complementary slackness] \textcolor{red}{\text{[复习KKT, complementary slackness]}} [复习KKT, complementary slackness]

微积分、函数叠加

损失函数加入L1正则后,目标函数变为 J ( θ ) = L ( θ ) + c ∥ θ ∥ 1 J(\bm \theta) = L(\bm \theta) + c \|\bm \theta\|_1 J(θ)=L(θ)+cθ1。When θ > 0 \bm \theta>0 θ>0, the gradient of c ∥ θ ∥ 1 c \|\bm \theta\|_1 cθ1 equals c c c; when θ < 0 \bm \theta<0 θ<0, the gradient of c ∥ θ ∥ 1 c \|\bm \theta\|_1 cθ1 equals − c -c c. Therefore, if the gradient of L ( θ ) L(\bm \theta) L(θ) lies within ( − c , c ) (-c,c) (c,c), the gradient of J ( θ ) J(\bm \theta) J(θ) is always negative for θ < 0 \bm \theta<0 θ<0, indicating that J ( θ ) J(\bm \theta) J(θ) is monotonically decreasing on the left of the origin; its gradient is always positive for θ > 0 \bm \theta>0 θ>

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值