最优化算法(四)

最新推荐文章于 2024-08-09 22:29:31 发布

sksssssss

最新推荐文章于 2024-08-09 22:29:31 发布

阅读量2k

点赞数 2

分类专栏：算法文章标签：算法优化机器学习

本文链接：https://blog.csdn.net/oBanTianYun/article/details/77487745

版权

算法专栏收录该内容

6 篇文章 1 订阅

订阅专栏

OWL-QN算法

上一篇介绍的L-BFGS只能解平滑问题，但是对于非平滑问题比如机器学习中常见的带L1正则的问题就解决不了，因此微软提出一种基于L-BFGS的优化算法OWL-QN算法，QWL-QN算法最大的特点是可以解非平滑问题，并且收敛速度比L-BFGS要快。

算法思想与伪梯度

算法具体的思想是，把目标函数投影到各个象限上，然后在各个象限上单独求解，并且限制象限，这样比如说L1正则项如果投影并且限制在某个象限上就成了线性函数，是可以求导的，而且损失函数的一阶和l1是相关的，但是二阶不相关，因此近似hessian逆矩阵的求解和lbfgs一样，而对于一阶导数，论文引入了一个概念，叫伪梯度如下

◊ i f = ⎧ ⎩ ⎨ ⎪ ⎪ \partial + i f (x), \partial - i f (x), 0, o t h e r w i s e i f \partial + i f (x) < 0 i f \partial - i f (x) > 0

$\lozenge_if=\begin{cases}\partial_{i}^+f(x) ,& \text { $if \partial_{i}^+f(x) \lt 0$ } \\ \partial_{i}^-f(x) ,& \text{ $if\partial_i^-f(x) \gt 0$ } \\ 0 , \text{ $otherwise$ } \end{cases}$
其中

\partial \pm i f (x) = \partial \partial x i l (x) + {C σ (x i), C, i f x i = 0 i f x i \neq 0

$\partial_i^{\pm}f(x)=\frac{\partial}{\partial x_i}l(x)+\begin{cases}C\sigma(x_i) ,&\text{$if x_i \ne 0 $} \\C,\text{ $if x_i = 0 $ } \end{cases}$
从上可以看出