3.1 Moreau-Yosia regulariztion
莫罗-吉田正则化。
共轭函数 f∗ :
若函数 f:Rn→R 是定义在 Rn 上的凸函数,则函数 f(x) 的共轭函数 f∗:Rn→R 定义为:
f∗(x∗)=supx(<x,x∗>−f(x))
适当闭凸函数(proper closed convex function)
f
和
并且 dom(f□g)=domf+domg
给定
λ>0
,函数
λf
的Moreau envelope (莫罗包络)or Moreau-Yosida regularization (莫罗-吉田正则化)
Mλf
定义为
Mλf=λf□(1/2)||⋅||22
,即:
也称为带有参数 λ 的函数 f 的莫罗包络。
莫罗包络
1、其定义域为
2、连续可微。(即使当函数
f
不连续可微时)
3、函数
因此,最小化函数
f
的问题,等价于最小化
近端操作和莫罗包络的关系为:
近端操作可以看做是最小化函数 Mλf 的一个梯度步骤,步长为 λ
组合莫罗分解,我们给出近端操作,莫罗包络,和共轭的关系:
3.2 次微分操作的分解
Resolvent of subdiffereential operator
我们将一个适当的闭凸函数的次微分
∂f
看作是点到集合的映射(point-to-set mapping)或者一个关系(relation)。
任何点
y∈∂f(x)
称为函数
f
在
近端操作
proxλf
和次微分操作
∂f
之间的关系:
点到点的映射: (I+λ∂f)−1 称为参数为 λ>0 的操作的分解(resolvent).
3.3 修改的梯度步骤
近端操作和函数
f
莫罗包络的关系:
也就是说,近端操作是是一个梯度步骤,其最小化函数 f 的莫罗包络,步长为
近端操作和函数的关系:
也就是说,对于小的 λ , proxλf(x) 收敛到一个梯度步骤,步长为 λ ,可以解释为最小化函数 f 的一个梯度步骤的近似.
上式公式的证明:
两个操作和的逆(inverse of sum of two operators):
(S+P)−1=S−1−S−1P(S+P)−1
只需要证明 (S+P)(S+P)−1=I ,
则 (S−1−S−1P(S+P)−1)(S+P)=S−1(S+P)−S−1P(S+P)−1(S+P)
=S−1(S+P)−S−1P=SS−1=I
则: (I+λ▽f)−1=I−1−I−1(λ▽f)(I+λ△f)−1
再次带入:
(I+λ▽f)−1=I−1−I−1(λ▽f)(I−1−I−1(λ▽f)(I+λ▽f)−1)
(I+λ△f)−1=I−λ▽f+λ2△2f(I+λ▽f)−1
当 λ 很小时,上式变为:
(I+λ△f)−1=I−λ▽f+o(λ)函数 f 一阶近似的近端操作:
如何函数可微,函数f 在点 v 处的一阶近似表示为:
f^(1)v(x)=f(v)+▽f(v)T(x−v)
则函数一阶近似的近端操作为:
其实标准的梯度步骤(步长为 λ )
函数 f 二阶近似的近端操作:
如何函数二阶可微,函数
则二阶近似的近端操作为:
上式的右手边是Tikhonov-regularized Newton update,或者Levenberg-Marquardt update 或者modified Hession Newton update.
总的来说,梯度步骤和Levenberg-Marquardt 步骤可以操作是函数 f <script type="math/tex" id="MathJax-Element-222">f</script>的一阶和二阶近似的近端操作。
参考文献:
1、https://www.physicsforums.com/threads/inverse-of-sum-of-two-operators.447467/