L1正则化问题

最新推荐文章于 2023-05-20 00:17:42 发布

euzmin

最新推荐文章于 2023-05-20 00:17:42 发布

阅读量1.3k

点赞数 3

分类专栏：学习西瓜书

本文链接：https://blog.csdn.net/euzmin/article/details/104827804

版权

学习西瓜书专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在线性优化中，通常会遇到l1正则化，由于L1不可导，所以如何求得最优解是个问题。

考虑最简单的线性模型，用平方误差作为优化函数，则优化目标为：
在这里插入图片描述
使用L1正则化，则为： $\operatorname * {min}\limits_{w}\summ_{i=1}(y_i-wTi)$

该优化目标也叫LASSO回归。

将(1)视为对w的函数,：

若f(x)可导，且∇f可导，且∇f满足L−Lipschitz条件，即存在常数L>0使得

$|\nabla f(x') - \nabla f(x)| \leq L|x'-x|, \forall (x,x')$

$\frac{|\nabla f(x') - \nabla f(x)|}{|x'-x|} \leq L ,\forall (x,x')$

由导数的定义可得，

$|\nabla ^2 f(x) \leq L$

因此对优化目标在 $x_k$ 处进行二阶泰勒展开：

$\hat{f}(x_k) = f(x_k)+\nabla f(x_k)^T(x-x_k)+\frac{\nabla ^2f(x_k)}{2!}(x-x_k)^T(x-x_k)$

$\leq f(x_k)+\nabla f(x_k)^T(x-x_k)+\frac{L}{2}(x-x_k)^T(x-x_k)$

$=f(x_k)+\frac{L}{2}((x-x_k)^T(x-x_k)+\frac{2}{L}\nabla f(x_k)(x-x_k)+\frac{1}{L^2}\nabla ^2f(x_k))-\frac{1}{L^2}\nabla ^2f(x_k)$

$=\frac{L}{2}||x-(x_k-\frac{1}{L}\nabla f(x_k))||^2_2+const$

其中， $const=f(x_k)--\frac{1}{L^2}\nabla ^2f(x_k)$

显然， $\hat{f}(x)_{min}$ 在 $z=x_k-\frac{1}{L}\nabla f(x_k)$ 处，带入(2)式得优化目标为：

首先我们讨论下式(3)的单调性，为了更加直观，我们先变换该式：

$\frac{L}{2}||x-z||^2_2+\lambda|x|$

$=\sum^d_{i=1}\frac{L}{2}((x_i-z_i)^2+\lambda|x_i|)$

考虑矩阵中的分量xi：

$g(x)=\frac{L}{2}(x_i-z_i)^2+\lambda|x_i| \tag{4}$

对式(4)求导：

$g'(x)=L(x_i-z_i)+\lambda sgn(x_i),$

$s g n (.)$ 为指示函数，满足 $sgn(x_i)=\left\{\begin{aligned}1,x_i>0 \\0,x_i<0\end{aligned}\right.$ ，注意 $x_i=0$ 时不可导。

设 $g'(x)=L(x_i-z_i)+\lambda sgn(x_i)=0,$ 对 $x_i$ 的三种取值情况进行分析：

$x_i>0$

$L(x_i-z_i)+\lambda =0$

$x_i=z_i-\frac{\lambda}{L}$

因为 $x_i>0,$ 所以 $z_i>\frac{\lambda}{L}$
$x_i<0$

$L(x_i-z_i)-\lambda =0$

$x_i=z_i+\frac{\lambda}{L}$

因为 $x_i<0,$ 所以 $z_i<-\frac{\lambda}{L}$
$x_i=0$

$g(x)=\frac{L}{2}(z_i)^2$ 为常量恒定不变。

综上可得：

$x_i=\left\{\begin{aligned}z_i-\frac{\lambda}{L},z_i>\frac{\lambda}{L} \\0,\ \ \ \ |z_i| \leq \frac{\lambda}{L}\ \ \ \ \\z_i+ \frac{\lambda}{L},z_i<-\frac{\lambda}{L}\end{aligned}\right.$
代码：

def prox_l1(z, lambda_L):
  x = z - lambda_L
  y = -z - lambda_L
  x[x < 0] = 0
  y[y< 0] = 0
  # print(f'prox_l1 x:{(x-y).size()}')
  return x-y

euzmin

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录