Proximal Algorithms

最新推荐文章于 2024-06-20 09:43:59 发布

机器学习的小学生

最新推荐文章于 2024-06-20 09:43:59 发布

阅读量7.6k

点赞数 5

分类专栏：凸优化

本文链接：https://blog.csdn.net/raby_gyl/article/details/51942994

版权

凸优化专栏收录该内容

28 篇文章 6 订阅

订阅专栏

Proximal Algorithms:近端算法，近似算法
proximal operator:近端操作，近似操作

1 简介

1.1定义

a proper convex function:
在数值分析和优化中，一个proper convex function 函数是这样的一个凸函数，其在扩展实轴上的取值满足：
至少存在一个 $x$ ，使得 $f(x) < + \infty$
并且对于所有的 $x$ ， $f(x)>--\infty$
一个凸函数是适当的，也就是说，其在有效定义域内为非空的，并且不能取得 $-\infty$ .
a closed convex funciton:
一个函数 $f:\mathbb{R}^n \rightarrow \mathbb{R}$ ，如果对于每一个 $\alpha \in \mathbb R$ ，其水平子集 $\{x \in dom f|f(x) \leq \alpha \}$ 是一个闭集，那么我们称函数 $f$ 是闭凸函数。

令 $f: \mathbf R^n \rightarrow \mathbf R \cup \{+\infty \}$ 是一个适当的闭的凸函数(a closed proper convex function)，这意味着，函数 $f$ 的上镜图：

e p i f = {(x, t) \in R n \times R | f (x) \leq t}

$\mathbf {epi} f=\{(x,t) \in \mathbf R^n × \mathbf R|f(x) \leq t \}$
是一个非空闭凸集。函数

f $f$ 的有效域：

f = {x \in R n | f (x) < + \infty},

$\mathbf f=\{ x \in \mathbf R^n | f(x) <+\infty \},$
也就是说，函数

f $f$ 在该点集合上为有限值。
函数

f $f$ 的近端操作

proxf $\mathbf {prox}_f$ :

Rn→Rn $\mathbf R^n \rightarrow \mathbf R^n$ 定义为：

p r o x f (v) = a r g min x (f (x) + (1 / 2) | | x - v | | 22), (1.1)

$\mathbf {prox}_f(v)=arg \min_x\big ( f(x)+(1/2)||x-v||_2^2 \big), \qquad(1.1)$
其中

||⋅||2 $||\centerdot||_2$ 是欧式范数。公式右手边(

minx $\min_x$ 内）函数是强凸函数，并且不是处处无限，因此

for ∀ v∈Rn $for \ \forall \ v \in \mathbf R^n$ (甚至当

domf⊂Rn $\ \mathbf{dom} f \subset \mathbf R^n$ ),该函数有唯一的最小值。
我们经常会碰到scaled function

λf $\lambda f$ 的 近端操作（其中

λ>0 $\lambda >0$ ），其可以表示为，

p r o x λ f (v) = a r g min x (f (x) + (1 / 2 λ) | | x - v | | 22) . (1.2)

$\mathbf{prox}_{\lambda f} (v)=arg \min_x \big( f(x)+(1/{2\lambda})||x-v||_2^2 \big ).\qquad (1.2)$
这也可以称作带有参数

λ $\lambda$ 的函数

f $f$ 的近端操作。(为了符号的简洁，我们写成

1/2λ $1/2\lambda$ ,而不是

(1/(2λ)). $(1/(2\lambda)).$ )

1.2 解释

图1.1描述了近端操作。细黑线是凸函数 $f$ 的等值线。粗黑线表示其定义域的边界。在蓝色的点处计算 $\mathbf {prox}_f$ ，则为相应的红色点。函数定义域中的三个点任然在定义域中，并且移动到函数的最小值，同时，另外两个点移动到定义域的边界并且朝向函数的最小值。参数 $\lambda$ 控制近端操作将点映射到函数 $f$ 的最小值的程度， $\lambda$ 值越大，则映射后的点更接近最小值， $\lambda$ 值越小，则向最小值移动的步长越小。
这里写图片描述
近端操作的定义表明， $\mathbf {prox}_f(v)$ 的点是最小化函数 $f$ 和临近 $v$ 的折中。因此， $\mathbf {prox}_f(v)$
有时称为 $v$ 关于 $f$ 的一个近端点（临近点，proximal point）.在 $\mathbf {prox}_{\lambda f}$ 中，参数 $\lambda$ 可以解释为这两个项之间的相对权重或者折中参数。
当 $f$ 是个示性函数(indicator function):

I C (x) = {0, + \infty, if x \in C if x \notin C

$I_C(x)=\begin{cases} 0, & \text {if $x\in C$}\\ +\infty,&\text{ if $x\notin C$} \end{cases}$
其中

C $C$ 是闭的非空凸集，函数

f $f$ 的近端操作降为到集合

C $C$ 上的欧式投影，其表示为：

Π C (v) = a r g min x \in C | | x - v | | 2 (1.3)

$\Pi_C(v)=arg\min_{x\in C} ||x-v||_2 \qquad (1.3)$
因此，近端操作可以看作是广义投影。
函数

f $f$ 的近端操作也可以解释为函数

f $f$ 的一类梯度步（gradient step）。特别的，当

λ $\lambda$ 很小，并且

f $f$ 可微时。，我们有：

p r o x λ f (v) \approx v - λ ▽ f (v)

$\mathbf {prox}_{\lambda f}(v)\approx v-\lambda \triangledown f(v)$
这表明，近端操作和梯度方法之间存在着紧密的联系，同时暗示着近端操作在优化中很有用，也同样表明，

λ $\lambda$ 扮演的角色类似于梯度方法中的步长。
最终，函数

f $f$ 的近端操作的固定点(fixed points)恰好是函数

f $f$ 的最小值。话句话说，当且仅当，

x∗ $x^*$ 是函数

f $f$ 的最小值时，

proxλf(x∗)=x∗ $\mathbf {prox}_{\lambda f}(x^*)=x^*$ 成立。这表明，近端操作和固定点理论紧密相连，并且近端算法可以解释为通过找到适当操作（appropriate operators，可能为approximate operators）的固定点来求解最优化问题。

1.3 近端算法

近端算法就是指，在求解凸优化问题中，使用了目标项(object terms)的近端操作的算法。
近端算法的优点：
1、其可以应用于一般情况下，包括函数为非平滑的情况。
2、计算快。因为可以存在函数的简单的近端操作。
3、可以用于分布式优化，因此其可以用于解决大规模问题。
4、概念和数学上简单，对于一个特定的问题，易于理解，推导和实现。
实际上，许多近端算法可以解释为其他众所周知并且广泛使用的算法的推广，像投影梯度法。

2 近端操作的性质。

2.1 Separable sum(可分的和）

如何函数 $f$ 可以分解为两个变量的表示形式，即 $f(x,y)=\varphi (x)+\psi(y)$ ，那么：

p r o x f (v, w) = (p r o x φ (v), p r o x ψ (w)) (2.1)

$\mathbf {prox}_f(v,w)=(\mathbf {prox}_{\varphi}(v),\mathbf {prox}_{\psi}(w))\qquad (2.1)$
这样，计算一个可分离的函数的近端操作降为计算每一个可分离部分的近端操作，这两个操作可以独立的实现。
如果

f $f$ 完全可分离，意思就是

f(x)=∑ni=1fi(xi) $f(x)=\sum_{i=1}^nf_i(x_i)$ ，那么:

(p r o x f (v)) i = p r o x f i (v i)

$(\mathbf {prox}_f(v) )_i=\mathbf {prox}_{f_i}(v_i)$
换句话说，在这种情况下，矢量函数上的近端操作降为在计算标量函数的近端操作，我们将在第5章看到，近端操作的 可分的和属性是推导近端算法并行的关键。

2.2 基本操作

这一部分当需要时，可做参考。
Postcomposition:
如何函数 $f(x)=\alpha \varphi (x)+b，\alpha>0$ ，那么：

p r o x λ f (v) = p r o x α λ φ (v)

$\mathbf{prox}_{\lambda f}(v)=\mathbf {prox}_{\alpha \lambda \varphi }(v)$
Procomposion:
如何

f(x)=φ(αx+b),α≠0 $f(x)=\varphi(\alpha x+b), \alpha \neq 0$ ，那么：

p r o x λ f (v) = 1 α (p r o x α 2 λ φ (α v + b) - b)

$\mathbf {prox}_{\lambda f}(v)=\frac {1}{\alpha} \big ( \mathbf {prox}_{\alpha ^2 \lambda \varphi } (\alpha v+b)-b \big )$
如何

f(x)=φ(Qx) $f(x)=\varphi (Qx)$ ,其中

Q $Q$ 是正交的（

QQT=QTQ=I $QQ^T=Q^TQ=I$ ），那么：

p r o x λ f (v) = Q T p r o x λ φ (Q v)

$\mathbf {prox}_{\lambda f}(v)=Q^T \mathbf {prox}_{\lambda \varphi}(Qv)$
Affine addtition.
如何

f(x)=φ(x)+αTx+b $f(x)=\varphi (x)+\alpha ^Tx+b$ ，那么

p r o x λ f (v) = p r o x λ φ (v - λ α)

$\mathbf {prox}_{\lambda f}(v)=\mathbf {prox}_{\lambda \varphi }(v-\lambda \alpha)$
Regularization.
如何

f(x)=φ(x)+(ρ/2)||x−α||22 $f(x)=\varphi (x)+(\rho/2)||x-\alpha||_2^2$ ，那么：

p r o x λ f (v) = p r o x λ ~ φ ((λ ~ / λ) v + (ρ λ ~) α)

$\mathbf {prox}_{\lambda f}(v)=\mathbf {prox}_{\tilde {\lambda} \varphi} \big( (\tilde{\lambda} /\lambda )v+(\rho \tilde{\lambda} )\alpha \big)$
其中

λ~=λ/(1+λρ). $\tilde\lambda =\lambda /(1+\lambda \rho).$
参考文献：
1、 https://web.stanford.edu/~boyd/papers/pdf/prox_algs.pdf
Proximal Algorithms.Neal Parikh,Stephen Boyd.
2、 https://en.wikipedia.org/wiki/Proper_convex_function
3、 https://en.wikipedia.org/wiki/Closed_convex_function

机器学习的小学生

关注

5
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
Proximal Algorithms

Proximal Algorithms:近端算法 proximal operator:近端操作这里将Proximal Algorithms翻译成近端算法，而不是近似算法。主要是因为，近端操操作其行为上类似在将一个点投影到集合中与该点满足评价函数f(x)f(x)和距离最小的点，有最邻近的端点之意。近端操作又类似于离散下的广义距离变换。1.1定义令f:Rn→R∪{+∞}f: \mathbf R
复制链接

扫一扫

专栏目录