让我们深入理解近端算子 prox f ( y ) \text{prox}_f(y) proxf(y)的定义,及其与次梯度集合(subdifferential set ∂ f ( x ) \partial f(x) ∂f(x)之间的关系。近端算子 prox f ( y ) \text{prox}_f(y) proxf(y)对于凸函数 f f f和给定点 y y y定义为:
prox f ( y ) = arg min x { f ( x ) + 1 2 ∥ x − y ∥ 2 } \text{prox}_f(y) = \arg\min_x \left\{ f(x) + \frac{1}{2}\|x-y\|^2 \right\} proxf(y)=argxmin{f(x)+21∥x−y∥2}
这个优化问题的解 x = prox f ( y ) x = \text{prox}_f(y) x=proxf(y)意味着 x x x是使函数 f ( x ) + 1 2 ∥ x − y ∥ 2 f(x) + \frac{1}{2}\|x-y\|^2 f(x)+21∥x−y∥2达到最小值的点。
从近端算子到次梯度的包含关系
考虑 x = prox f ( y ) x = \text{prox}_f(y) x=proxf(y),我们首先证明 ( y − x ) ∈ ∂ f ( x ) (y-x) \in \partial f(x) (y−x)∈∂f(x)。由于 x x x最小化了上述表达式,根据次梯度的优化性质, 0 0 0必须在这个最小化问题的次梯度中:
0 ∈ ∂ ( f ( x ) + 1 2 ∥ x − y ∥ 2 ) 0 \in \partial \left( f(x) + \frac{1}{2}\|x-y\|^2 \right) 0∈∂(f(x)+21∥x−y∥2)
根据次梯度的定义和性质,对于函数 g ( x ) = f ( x ) + 1 2 ∥ x − y ∥ 2 g(x) = f(x) + \frac{1}{2}\|x-y\|^2 g(x)=f(x)+21∥x−y∥2,我们有:
∂ g ( x ) = ∂ f ( x ) + x − y \partial g(x) = \partial f(x) + x - y ∂g(x)=∂f(x)+x−y
因此,将0放入上述等式:
0 ∈ ∂ f ( x ) + x − y 0 \in \partial f(x) + x - y 0∈∂f(x)+x−y
这意味着:
y
−
x
∈
∂
f
(
x
)
y - x \in \partial f(x)
y−x∈∂f(x)
从次梯度包含关系到近端算子
现在,假设 ( y − x ) ∈ ∂ f ( x ) (y-x) \in \partial f(x) (y−x)∈∂f(x),我们需要证明 x = prox f ( y ) x = \text{prox}_f(y) x=proxf(y)。根据次梯度的定义,对于所有 z z z,我们有:
f ( z ) ≥ f ( x ) + ⟨ y − x , z − x ⟩ f(z) \geq f(x) + \langle y-x, z-x \rangle f(z)≥f(x)+⟨y−x,z−x⟩
加上 1 2 ∥ z − y ∥ 2 \frac{1}{2}\|z-y\|^2 21∥z−y∥2到两边,我们得到:
f ( z ) + 1 2 ∥ z − y ∥ 2 ≥ f ( x ) + ⟨ y − x , z − x ⟩ + 1 2 ∥ z − y ∥ 2 f(z) + \frac{1}{2}\|z-y\|^2 \geq f(x) + \langle y-x, z-x \rangle + \frac{1}{2}\|z-y\|^2 f(z)+21∥z−y∥2≥f(x)+⟨y−x,z−x⟩+21∥z−y∥2
注意到 ⟨ y − x , z − x ⟩ + 1 2 ∥ z − y ∥ 2 = 1 2 ∥ z − x ∥ 2 − 1 2 ∥ x − y ∥ 2 \langle y-x, z-x \rangle + \frac{1}{2}\|z-y\|^2 = \frac{1}{2}\|z-x\|^2 - \frac{1}{2}\|x-y\|^2 ⟨y−x,z−x⟩+21∥z−y∥2=21∥z−x∥2−21∥x−y∥2,所以我们可以简化上述不等式为:
f ( z ) + 1 2 ∥ z − y ∥ 2 ≥ f ( x ) + 1 2 ∥ x − y ∥ 2 + 1 2 ∥ z − x ∥ 2 − 1 2 ∥ x − y ∥ 2 f(z) + \frac{1}{2}\|z-y\|^2 \geq f(x) + \frac{1}{2}\|x-y\|^2 + \frac{1}{2}\|z-x\|^2 - \frac{1}{2}\|x-y\|^2 f(z)+21∥z−y∥2≥f(x)+21∥x−y∥2+21∥z−x∥2−21∥x−y∥2
简化得:
f ( z ) + 1 2 ∥ z − y ∥ 2 ≥ f ( x ) + 1 2 ∥ x − y ∥ 2 f(z) + \frac{1}{2}\|z-y\|^2 \geq f(x) + \frac{1}{2}\|x-y\|^2 f(z)+21∥z−y∥2≥f(x)+21∥x−y∥2
这意味着对于所有 z z z, x x x是最小化 f ( x ) + 1 2 ∥ x − y ∥ 2 f(x) + \frac{1}{2}\|x-y\|^2 f(x)+21∥x−y∥2的点,即 x = prox f ( y ) x = \text{prox}_f(y) x=proxf(y)。
结论
x = prox f ( y ) ⇔ ( y − x ) ∈ ∂ f ( x ) x = \text{prox}_f(y) \Leftrightarrow (y-x) \in \partial f(x) x=proxf(y)⇔(y−x)∈∂f(x)
因此, x = prox f ( y ) x = \text{prox}_f(y) x=proxf(y)与 ( y − x ) ∈ ∂ f ( x ) (y-x) \in \partial f(x) (y−x)∈∂f(x)是充分必要条件,它们可以互相推导出来。这一关系在凸优化和变分不等式理论中是基础性的,为理解和应用近端算子提供了重要的理论基础。