凸优化简介15

最新推荐文章于 2024-08-04 12:34:17 发布

qq_36573282

最新推荐文章于 2024-08-04 12:34:17 发布

阅读量331

点赞数

本文链接：https://blog.csdn.net/qq_36573282/article/details/105092338

版权

本文介绍了条件梯度下降法，即Frank-Wolfe算法，用于解决非线性约束优化问题。算法优势在于内存需求小，无需投影操作。内容涵盖了L1正则化、Lp正则化、矩阵迹正则化问题的求解步骤，以及算法的收敛理论。特别地，当函数为凸且梯度Lipschitz连续时，有f(xk)−f(x∗)≤k+12L diam(D)2的收敛率。

摘要由CSDN通过智能技术生成

文章目录

条件梯度下降

条件梯度下降

1. 基本概念

条件梯度下降法，即 Frank-Wolfe算法用来解决非线性约束问题的优化的。该算法的优势在于需要较少的内存以及在迭代中不需要用到投影方法。在算法中，给定一个初始点 $x_0$ ，构建一个估计序列 $x_1,x_2\dots$ ，并最终收敛在问题的最优解。下面是该算法的一般描述：

输入 $x_0$ , tolerance $\delta>0$
迭代 $n$ 次，其中第 $k$ 次迭代：
$s_k\in \argmax\limits_{s\in \mathfrak{D}}\langle -\nabla f(x_k),s\rangle$
$d_k=s_k-x_k$
$g_k=-\langle \nabla f(x_k),d_k\rangle$
if $g_k < \delta$ :
return $x_k$
update $\gamma_k(g_k)$
$x_{k+1}=x_k+\gamma_kd_k$

针对上面的算法中，对于 $\gamma_k$ 的更新，有两种常用的方案：
1. $\gamma_k=\min \left\{\frac{g_k}{L\|d_k\|^2},1\right\}$ .
2. $\gamma_k=\argmin\limits_{\gamma\in [0,1]}f(x_k+\gamma d_k)$

算法中的主要步骤为：
1. $s_k\in \argmin\limits_{s\in \mathfrak{D}}\langle \nabla f(x_k),s\rangle$
2. $x_{k+1}=(1-\gamma_k)x_t+\gamma_k\cdot s_k$

当 $\mathfrak{D}=\{\|x\|\leq \tau\}$ ，那么
$s_k\in \argmin\limits_{\|s\leq \tau\|}\langle\nabla f(x_k),s\rangle=-\tau(\argmax\limits_{\|s\|\leq 1}\langle \nabla f(x_k),s\rangle)=-\tau\partial\|\nabla f(x_k)\|$ .

对偶范数的定义：设 $\|\cdot\|$ 是 $\mathbb{R}$ 空间中的范数，则对偶范数为 $\|z\|_*=\sup\limits_{x}\{z^Tx|\|x\|\leq 1\}$ 。

范数的次微分： $\partial\|z\|_*\equiv\{x:\langle x,z\rangle=\|z\|_*, \|x\|\leq 1\}$ ，因此 $x^*\in \{x:\langle x,z\rangle=\|z\|_*, \|x\|\leq 1\}$ ，即 $x^*\in \partial\|z\|_*$ .

2. $\mathfrak{L}_1$ 正则化问题

对于 $\mathfrak{L}_1$ 正则化问题：
$\min\limits_{x}f(x),\ \ \ s.t.\ \ \|x\|_1\leq t$ ，有 $s_k\in t \partial\|\nabla f(x_k)\|_{\infty}$ ，Frank-Wolfe的更新步骤为：
$i_k\in \argmax\limits_{i=1,\dots,p}|\nabla^{(i)}f(x_k)|\\ x_{k+1}=(1-\gamma_k)x_k-\gamma_kt\cdot sign(\nabla^{(i_k)}f(x_k))e_{ik}$