模型
凸且光滑,即可微,凸且非光滑,即不可微,因此不能使用梯度下降法,因为在某点梯度会不存在,比如.
近端梯度法常用于解上述优化问题.
近端梯度法
1、因为可微,因此将它在处Taylor展开:
拆开整理可得:
要求,则令迭代即可得
2、实际问题是要求,将在处Taylor展开:
则问题变为:
下面介绍近端映射函数(投影算子proximity operator):
问题为:给定一个变量,找到上面优化问题的极小点,为不可微的凸函数
其中,表示关于变量和函数的近端算子,求得的能让达到最小,且与不可微点无限接近.
因此,(1)中的相当于上式中的变量,因此可以通过下列近端算子求解:
解释:对于当前点,沿着可微函数的负梯度方向,以一定步长下降迭代得到,然后使用投影算子求出新的更新值.
对于Lasso而言,proximal方法相当把原问题拆解成了两个子问题,首先更新平滑部分的参数(L1以外的部分),拿着更新好的结果,跑一遍proximal operator(soft threshold函数)让它也尽量更接近满足L1的条件,处理过后的才是新的参数.
参考资料:
https://zhuanlan.zhihu.com/p/103161094
https://zhuanlan.zhihu.com/p/82622940
https://blog.csdn.net/qq_38290475/article/details/81052206
http://www.bubuko.com/infodetail-2895666.html
https://blog.csdn.net/Chaolei3/article/details/81320940
https://blog.csdn.net/zbwgycm/article/details/83060251