Proximal Algorithms--Moreau-Yosida regularization

最新推荐文章于 2023-10-20 10:34:24 发布

机器学习的小学生

最新推荐文章于 2023-10-20 10:34:24 发布

阅读量4k

点赞数 2

分类专栏：凸优化

本文链接：https://blog.csdn.net/raby_gyl/article/details/51959678

版权

凸优化专栏收录该内容

28 篇文章 7 订阅

订阅专栏

3.1 Moreau-Yosia regulariztion

莫罗-吉田正则化。

共轭函数 $f^*$ :
若函数 $f:R^n \rightarrow R$ 是定义在 $R^n$ 上的凸函数，则函数 $f(x)$ 的共轭函数 $f^*:R^n \rightarrow R$ 定义为：

$f * (x *) = sup x (< x, x * > - f (x))$ $f^*(x^*)=\sup_x(<x,x^*> -f(x))$

适当闭凸函数（proper closed convex function） $f$ 和 $g$ 在 $R^n$ 上的下确卷积(infimal convolution)，表示为 $f \square g$ ，定义为：

(f □ g) (v) = inf x (f (x) + g (v - x),

$(f \square g) (v)=\inf_x(f(x)+g(v-x),$
并且

dom(f□g)=domf+domg $\mathbf {dom} (f \square g)=\mathbf {dom}f +\mathbf {dom} g$

给定 $\lambda >0$ ，函数 $\lambda f$ 的Moreau envelope (莫罗包络）or Moreau-Yosida regularization （莫罗-吉田正则化） $M_{\lambda f}$ 定义为 $M_{\lambda f}=\lambda f \square (1/2)||\centerdot||_2^2$ ，即：

M λ f (v) = inf x (f (x) + (1 / 2 λ) | | x - v | | 22) . q q u a d (3.1)

$M_{\lambda f}(v)=\inf_x \big ( f(x) +(1/{2\lambda}) ||x-v||_2^2 \big ) . \ qquad (3.1)$
也称为带有参数

λ $\lambda$ 的函数

f $f$ 的莫罗包络。

莫罗包络 $M_f$ 本质上是函数 $f$ 的一个平滑或者正则化的形式：
1、其定义域为 $\mathbf R^n$ （即使函数 $f$ 的定义域不是 $\mathbf R^n$ ）
2、连续可微。（即使当函数 $f$ 不连续可微时）
3、函数 $f$ 和 $M_f$ 最小值集合是相同的。
因此，最小化函数 $f$ 的问题，等价于最小化 $M_f$ 的问题。

近端操作和莫罗包络的关系为：

p r o x λ f (x) = x - λ ▽ M λ f (x) (3.3)

$\mathbf {prox}_{\lambda f} (x)=x-\lambda \triangledown M_{\lambda f}(x) \quad (3.3)$
近端操作可以看做是最小化函数

Mλf $M_{\lambda f}$ 的一个梯度步骤，步长为

λ $\lambda$
组合莫罗分解，我们给出近端操作，莫罗包络，和共轭的关系：

p r o x λ f (x) = ▽ M f * (x)

$\mathbf {prox}_{\lambda f} (x)=\triangledown M_{f^*}(x) \quad$

3.2 次微分操作的分解

Resolvent of subdiffereential operator

我们将一个适当的闭凸函数的次微分 $\partial f$ 看作是点到集合的映射(point-to-set mapping)或者一个关系(relation)。
任何点 $y \in \partial f(x)$ 称为函数 $f$ 在 $x$ 处的一个次微分。
近端操作 $\mathbf {prox}_{\lambda f}$ 和次微分操作 $\partial f$ 之间的关系：

p r o x λ f = (I + λ \partial f) - 1 (3.4)

$\mathbf {prox}_{\lambda f}=(I+\lambda \partial f)^{-1} \qquad (3.4)$

点到点的映射: $(I+\lambda \partial f)^{-1}$ 称为参数为 $\lambda >0$ 的操作的分解(resolvent).

3.3 修改的梯度步骤

近端操作和函数 $f$ 莫罗包络的关系：

p r o x λ f (x) = x - λ ▽ M λ f (x)

$\mathbf {prox}_{\lambda f}(x)=x-\lambda \triangledown M_{\lambda f} (x)$
也就是说，近端操作是是一个梯度步骤，其最小化函数

f $f$ 的莫罗包络，步长为

λ $\lambda$

近端操作和函数的关系：

$p r o x λ f (x) = (I + λ △ f) - 1 (x) = x - λ △ f (x) + o (λ)$ $\mathbf {prox}_{\lambda f}(x)=(I+\lambda \triangle f)^{-1}(x)=x-\lambda \triangle f(x)+o(\lambda)$
也就是说，对于小的 $\lambda$ ， $\mathbf {prox}_{\lambda f}(x)$ 收敛到一个梯度步骤，步长为 $\lambda$ ，可以解释为最小化函数 $f$ 的一个梯度步骤的近似.

上式公式的证明：
两个操作和的逆（inverse of sum of two operators）:

$(S + P) - 1 = S - 1 - S - 1 P (S + P) - 1$ $(S+P)^{-1}=S^{-1}-S^{-1}P(S+P)^{-1}$
只需要证明 $(S+P)(S+P)^{-1}=I$ ，
则 $(S^{-1}-S^{-1}P(S+P)^{-1})(S+P)=S^{-1}(S+P)-S^{-1}P(S+P)^{-1}(S+P)$
$= S - 1 (S + P) - S - 1 P = S S - 1 = I$ $=S^{-1}(S+P)-S^{-1}P=SS^{-1}=I$
则： $(I+\lambda \triangledown f)^{-1}=I^{-1}-I^{-1}(\lambda\triangledown f)(I+\lambda \triangle f)^{-1}$
再次带入：
$(I+\lambda \triangledown f)^{-1}=I^{-1}-I^{-1}(\lambda\triangledown f)(I^{-1}-I^{-1}(\lambda\triangledown f)(I+\lambda \triangledown f)^{-1})$
$(I+\lambda \triangle f)^{-1}=I-\lambda \triangledown f+\lambda^2 \triangle ^2 f(I+\lambda \triangledown f)^{-1}$
当 $\lambda$ 很小时，上式变为：
$(I+\lambda \triangle f)^{-1}=I-\lambda \triangledown f+o(\lambda)$

函数 $f$ 一阶近似的近端操作：
如何函数可微，函数 $f$ 在点 $v$ 处的一阶近似表示为：

$f^(1) v (x) = f (v) + ▽ f (v) T (x - v)$ $\hat{f}_v^{(1)}(x)=f(v)+\triangledown f(v) ^T (x-v)$
则函数一阶近似的近端操作为：

$p r o x f^(1) v (v) = v - λ ▽ f (v)$ $\mathbf {prox}_{\hat{f}_v^{(1)}}(v)=v-\lambda \triangledown f(v)$
其实标准的梯度步骤（步长为 $\lambda$ ）
函数 $f$ 二阶近似的近端操作：
如何函数二阶可微，函数 $f$ 在点 $v$ 处的二阶近似表示为：
$f^(2) v (x) = f (v) + ▽ f (v) T (x - v) + (1 / 2) (x - v) T ▽ 2 f (v) (x - v)$ $\hat{f}_v^{(2)}(x)=f(v)+\triangledown f(v)^T(x-v)+(1/2)(x-v)^T \triangledown ^2 f(v)(x-v)$
则二阶近似的近端操作为：
$p r o x f^(2) v (v) = v - (▽ 2 f (v) + (1 / λ) I) - 1 ▽ f (v)$ $\mathbf {prox}_{\hat{f}_v^{(2)}}(v)=v- (\triangledown ^2f(v)+(1/\lambda)I)^{-1}\triangledown f(v)$
上式的右手边是Tikhonov-regularized Newton update,或者Levenberg-Marquardt update 或者modified Hession Newton update.

总的来说，梯度步骤和Levenberg-Marquardt 步骤可以操作是函数 f <script type="math/tex" id="MathJax-Element-222">f</script>的一阶和二阶近似的近端操作。

参考文献：
1、https://www.physicsforums.com/threads/inverse-of-sum-of-two-operators.447467/