OWL-QN算法
上一篇介绍的L-BFGS只能解平滑问题,但是对于非平滑问题比如机器学习中常见的带L1正则的问题就解决不了,因此微软提出一种基于L-BFGS的优化算法OWL-QN算法,QWL-QN算法最大的特点是可以解非平滑问题,并且收敛速度比L-BFGS要快。
算法思想与伪梯度
算法具体的思想是,把目标函数投影到各个象限上,然后在各个象限上单独求解,并且限制象限,这样比如说L1正则项如果投影并且限制在某个象限上就成了线性函数,是可以求导的,而且损失函数的一阶和l1是相关的,但是二阶不相关,因此近似hessian逆矩阵的求解和lbfgs一样,而对于一阶导数,论文引入了一个概念,叫伪梯度如下
◊if=⎧⎩⎨⎪⎪∂+if(x),∂−if(x),0, otherwise if∂+if(x)<0 if∂−if(x)>0
其中
∂±if(x)=∂∂xil(x)+{Cσ(xi),C, ifxi=0 ifxi≠0
从上可以看出 ∂−if(x)≤∂+if(x) 始终成立,这样保证方向导数最小。
线性搜索
线性搜索需要保证开始的限制条件,就是更新后的不能越过象限,论文中给出了一个backtracking line search方法如下:
f(xk+1)≤f(xk)−γvT(xk+1−xk)
这里的
vT
是伪梯度的负方向,
总结
从上面可以看出,其实owl-qn和lbfgs算法不同有两点,一个是伪梯度代替梯度,第二是线性搜索方法改变,其他的包括求解步骤都不变,下面是论文中给出的具体算法