简介
首先说一下两者的关系,压缩感知是一种解决欠采样问题的采样理论,在2010年提出,是奈奎斯特采样定理的升级版。临近点算子是解决压缩感知问题的核心引擎,另外需要引出临近梯度下降法,是梯度下降法的一种次梯度版本。本文主题将包括:
- 临近点算子的定义与性质
- 常见函数的临近点算子
- 临近点梯度下降法
- 临近点梯度下降法在求解压缩感知问题中的应用
- 拓展与创新
临近点算子的定义与性质
- 定义
函数 f : R n → R ∪ { + ∞ } f:R^n\rightarrow R \cup \{+\infty\} f:Rn→R∪{+∞}的临近点算子的定义为:
p r o x λ f ( v ) = arg min x ( f ( x ) + ( 1 / 2 λ ) ∥ x − v ∥ 2 2 ) prox_{\lambda f}(v)=\arg\min_x\left(f(x)+(1/2\lambda)\|x-v\|_2^2\right) proxλf(v)=argxmin(f(x)+(1/2λ)∥x−v∥22)
其中 λ > 0 \lambda>0 λ>0, f f f可以是非光滑的,但必须是凸函数。 - 性质:可加性
若 f ( x ) = ∑ i N f i ( x i ) f(x)=\sum_i^Nf_i(x_i) f(x)=∑iNfi(xi),则:
( p r o x f ( v ) ) i = p r o x f i ( v i ) (prox_f(v))_i=prox_{f_i}(v_i) (proxf(v))i=proxfi(vi) - 性质:固定点
x ∗ x^* x∗为 f f f的极小值点,当且仅当 x ∗ x^* x∗为一个固定点,即:
x ∗ = p r o x f ( x ∗ ) x^*=prox_f(x^*) x∗=proxf(x∗)
固定点将临近算子和固定点理论联系起来了,优化问题等价于求固定点。
常见函数的临近点算子
- 示性函数
f = I C f=I_C f=IC为凸集 C C C上的示性函数,则:
p r o x λ I C ( v ) = Π C ( v ) = arg min x ∈ C ∥ x − v ∥ 2 prox_{\lambda I_C}(v)=\Pi_C(v)=\arg\min_{x\in C}\|x-v\|_2 proxλIC(v)=ΠC(v)=argx∈Cmin∥x−v∥2
即解为凸集 C C C上与点 v v v距离最小的点(投影点)。 - 二次函数
f ( x ) = ( 1 / 2 ) x T P x + q T x + r f(x)=(1/2)x^TPx+q^Tx+r f(x)=(1/2)xTPx+qTx+r
p r o x λ f ( v ) = ( I + λ P ) − 1 ( v − λ q ) prox_{\lambda f}(v)=(I+\lambda P)^{-1}(v-\lambda q) proxλf(v)=(I+λP)−1(v−λq) - 一范数
f = ∥ ⋅ ∥ 1 f=\|\cdot\|_1 f=∥⋅∥1
p r o x λ f ( v ) = ( v − λ ) + − ( − v − λ ) + = v i − λ 0 v i + λ v i ≥ λ ∣ v i ∣ ≤ λ v i ≤ − λ prox_{\lambda f}(v)=(v-\lambda)_+-(-v-\lambda)_+= \begin{matrix} v_i-\lambda \\ 0 \\ v_i+\lambda \end{matrix} \text{ } \begin{matrix} v_i\ge\lambda \\ |v_i|\le\lambda \\ v_i\le-\lambda \end{matrix} proxλf(v)=(v−λ)+−(−v−λ)+=vi−λ0vi+λ vi≥λ∣vi∣≤λvi≤−λ
临近点梯度下降法
临近点梯度下降法(PGD)可以用于求解如下问题:
min
f
(
x
)
+
g
(
x
)
\min f(x)+g(x)
minf(x)+g(x)
其中
f
f
f是光滑的,
g
g
g是凸函数。PGD的迭代形式为:
x
k
+
1
=
p
r
o
x
λ
k
g
(
x
k
−
λ
k
∇
f
(
x
k
)
)
x^{k+1}=prox_{\lambda^k g}(x^k-\lambda^k\nabla f(x^k))
xk+1=proxλkg(xk−λk∇f(xk))
PGD的收敛速度为
O
(
1
/
k
)
O(1/k)
O(1/k),当
∇
f
\nabla f
∇f 以常数
L
L
L Lipschitz连续。
临近点梯度下降法在求解压缩感知问题中的应用
在压缩感知问题中,
f
(
x
)
=
A
x
−
b
f(x)=Ax-b
f(x)=Ax−b,
g
(
x
)
=
γ
∥
x
∥
1
g(x)=\gamma\|x\|_1
g(x)=γ∥x∥1,其中
A
∈
R
m
×
n
A\in R^{m\times n}
A∈Rm×n,
γ
>
0
\gamma>0
γ>0于是PGD为:
x
k
+
1
=
p
r
o
x
λ
k
γ
∥
⋅
∥
1
(
x
k
−
λ
k
A
T
(
A
x
k
−
b
)
)
x^{k+1}=prox_{\lambda^k \gamma \|\cdot\|_1}(x^k-\lambda^kA^T(Ax^k-b))
xk+1=proxλkγ∥⋅∥1(xk−λkAT(Axk−b))
拓展与创新
- 用不同的 f f f做约束
- 将梯度下降法中的技巧引入到PGD中
- ADMM求解多约束问题
- 根据问题设计约束项
待续
- 常见临近点算子的求解
- 梯度下降的收敛性证明
- PGD的收敛性证明