这回的问题是
(P)
min
f
(
x
)
s.t.
x
∈
C
\begin{array}{lll} \text { (P) } & \min & f(\mathbf{x}) \\ & \text { s.t. } & x \in C \end{array}
(P) min s.t. f(x)x∈C
其中
f
f
f是一个定义在闭凸集
C
C
C上的连续可微函数。
稳定
稳定点定义
设
f
f
f是一个定义在闭凸集
C
C
C上的连续可微函数
设
x
∗
∈
C
\mathbf{x}^*\in C
x∗∈C,如果
∀
x
∈
C
,
∇
f
(
x
∗
)
T
(
x
−
x
∗
)
≥
0
\forall \mathbf{x}\in C,\nabla f(\mathbf{x}^*)^T(\mathbf{x}-\mathbf{x}^*)\ge 0
∀x∈C,∇f(x∗)T(x−x∗)≥0
则称
x
∗
∈
C
\mathbf{x}^*\in C
x∗∈C是一个稳定点(stationary point)
定理1
设
f
f
f是一个定义在闭凸集
C
C
C上的连续可微函数
设
x
∗
\mathbf{x}^*
x∗是(P)一个局部最小值,则
x
∗
\mathbf{x}^*
x∗是(P)的一个稳定点
证明:
假设
x
∗
\mathbf{x}^*
x∗不是一个稳定点,则
∃
x
∈
C
,
∇
f
(
x
∗
)
T
(
x
−
x
∗
)
<
0
\exists x \in C,\nabla f(\mathbf{x}^*)^T(\mathbf{x}-\mathbf{x}^*)<0
∃x∈C,∇f(x∗)T(x−x∗)<0
令
d
=
x
−
x
∗
\mathbf{d}=\mathbf{x}-\mathbf{x}^*
d=x−x∗,
则
f
′
(
x
∗
,
d
)
<
0
f'(\mathbf{x}^*,\mathbf{d})<0
f′(x∗,d)<0
所以
∃
ϵ
>
0
,
∀
t
∈
(
0
,
ϵ
)
,
f
(
x
∗
+
t
d
)
<
f
(
x
∗
)
\exists \epsilon>0,\forall t\in (0,\epsilon),f(\mathbf{x}^*+t\mathbf{d})<f(\mathbf{x}^*)
∃ϵ>0,∀t∈(0,ϵ),f(x∗+td)<f(x∗)
因为
C
C
C是一个凸集,
所以
x
∗
+
t
d
=
(
1
−
t
)
x
∗
+
t
x
∈
C
\mathbf{x}^*+t\mathbf{d}=(1-t)\mathbf{x}^*+t\mathbf{x}\in C
x∗+td=(1−t)x∗+tx∈C
所以
x
∗
\mathbf{x}^*
x∗不是局部最小点,矛盾
定理2
设
f
f
f是一个定义在闭凸集
C
C
C上的连续可微凸函数
则
x
∗
\mathbf{x}^*
x∗是一个稳定点当且仅当
x
∗
\mathbf{x}^*
x∗是(P)的最优解
证明:
必要性和定理1一样
充分性:设
x
∗
\mathbf{x}^*
x∗是(P)的一个稳定点,设
x
∈
C
\mathbf{x}\in C
x∈C,则
f
(
x
)
≥
f
(
x
∗
)
+
∇
f
(
x
∗
)
T
(
x
−
x
∗
)
≥
f
(
x
∗
)
f(\mathbf{x})\ge f(\mathbf{x}^*)+\nabla f(\mathbf{x}^*)^T(\mathbf{x}-\mathbf{x}^*)\ge f(\mathbf{x}^*)
f(x)≥f(x∗)+∇f(x∗)T(x−x∗)≥f(x∗)
所以
x
∗
\mathbf{x}^*
x∗是最优解
正交投影算子
投影第二定理
设
C
C
C是一个闭凸集,
x
∈
R
n
\mathbf{x}\in \mathbb{R}^n
x∈Rn,
则
z
=
P
C
(
x
)
\mathbf{z}=P_C(\mathbf{x})
z=PC(x)当且仅当
(
x
−
z
)
T
(
y
−
z
)
≤
0
,
∀
y
∈
C
(\mathbf{x}-\mathbf{z})^T(\mathbf{y}-\mathbf{z})\le 0,\ \forall \mathbf{y}\in C
(x−z)T(y−z)≤0, ∀y∈C
证明:
z
=
P
C
(
x
)
\mathbf{z}=P_C(\mathbf{x})
z=PC(x)当且仅当他是
min
g
(
y
)
≡
∥
y
−
x
∥
2
s.t.
y
∈
C
.
\begin{array}{ll} \min & g(y) \equiv\|y-x\|^{2} \\ \text { s.t. } & y \in C . \end{array}
min s.t. g(y)≡∥y−x∥2y∈C.
的最优解
根据定理2,他是一个稳定点
所以
∇
g
(
z
)
T
(
y
−
z
)
≥
0
,
∀
y
∈
C
\nabla g(\mathbf{z})^T(\mathbf{y}-\mathbf{z})\ge 0,\ \forall \mathbf{y}\in C
∇g(z)T(y−z)≥0, ∀y∈C
于是
(
x
−
z
)
T
(
y
−
z
)
≤
0
,
∀
y
∈
C
(\mathbf{x}-\mathbf{z})^T(\mathbf{y}-\mathbf{z})\le 0,\ \forall \mathbf{y}\in C
(x−z)T(y−z)≤0, ∀y∈C
定理3
设
C
C
C是一个闭凸集,则
1.
∀
v
,
w
∈
R
n
\forall \mathbf{v},\mathbf{w}\in\mathbb{R}^n
∀v,w∈Rn
(
P
C
(
v
)
−
P
C
(
w
)
)
T
(
v
−
w
)
≥
∥
P
C
(
v
)
−
P
C
(
w
)
∥
2
\left(P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right)^{T}(\mathbf{v}-\mathbf{w}) \geq\left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\|^{2}
(PC(v)−PC(w))T(v−w)≥∥PC(v)−PC(w)∥2
2.
∀
v
,
w
∈
R
n
\forall \mathbf{v},\mathbf{w}\in\mathbb{R}^n
∀v,w∈Rn
∥
P
C
(
v
)
−
P
C
(
w
)
∥
≤
∥
v
−
w
∥
\left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\| \leq\|\mathbf{v}-\mathbf{w}\|
∥PC(v)−PC(w)∥≤∥v−w∥
证明:
1.
根据投影第二定理
(
v
−
P
C
(
v
)
)
T
(
P
C
(
w
)
−
P
C
(
v
)
)
≤
0
(
w
−
P
C
(
w
)
)
T
(
P
C
(
v
)
−
P
C
(
w
)
)
≤
0
\left(\mathbf{v}-P_{C}(\mathbf{v})\right)^{T}\left(P_{C}(\mathbf{w})-P_{C}(\mathbf{v})\right) \leq 0\\ \left(\mathbf{w}-P_{C}(\mathbf{w})\right)^{T}\left(P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right) \leq 0
(v−PC(v))T(PC(w)−PC(v))≤0(w−PC(w))T(PC(v)−PC(w))≤0
加起来得
(
P
C
(
w
)
−
P
C
(
v
)
)
T
(
v
−
w
+
P
C
(
w
)
−
P
C
(
v
)
)
≤
0
\left(P_{C}(\mathbf{w})-P_{C}(\mathbf{v})\right)^{T}\left(\mathbf{v}-\mathbf{w}+P_{C}(\mathbf{w})-P_{C}(\mathbf{v})\right) \leq 0
(PC(w)−PC(v))T(v−w+PC(w)−PC(v))≤0
进而
(
P
C
(
v
)
−
P
C
(
w
)
)
T
(
v
−
w
)
≥
∥
P
C
(
v
)
−
P
C
(
w
)
∥
2
\left(P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right)^{T}(\mathbf{v}-\mathbf{w}) \geq\left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\|^{2}
(PC(v)−PC(w))T(v−w)≥∥PC(v)−PC(w)∥2
2.
如果
P
C
(
v
)
=
P
C
(
w
)
P_{C}(\mathbf{v})=P_{C}(\mathbf{w})
PC(v)=PC(w),显然成立,
如果
P
C
(
v
)
≠
P
C
(
w
)
P_{C}(\mathbf{v})\neq P_{C}(\mathbf{w})
PC(v)=PC(w)
根据柯西不等式
(
P
C
(
v
)
−
P
C
(
w
)
)
T
(
v
−
w
)
≤
∥
P
C
(
v
)
−
P
C
(
w
)
∥
⋅
∥
v
−
w
∥
,
\left(P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right)^{T}(\mathbf{v}-\mathbf{w}) \leq\left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\| \cdot\|\mathbf{v}-\mathbf{w}\|,
(PC(v)−PC(w))T(v−w)≤∥PC(v)−PC(w)∥⋅∥v−w∥,
于是
∥
P
C
(
v
)
−
P
C
(
w
)
∥
2
≤
∥
P
C
(
v
)
−
P
C
(
w
)
∥
⋅
∥
v
−
w
∥
∥
P
C
(
v
)
−
P
C
(
w
)
∥
≤
∥
v
−
w
∥
\left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\|^{2} \leq\left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\| \cdot\|\mathbf{v}-\mathbf{w}\| \ \\ \left\|P_{C}(\mathbf{v})-P_{C}(\mathbf{w})\right\| \leq\|\mathbf{v}-\mathbf{w}\|
∥PC(v)−PC(w)∥2≤∥PC(v)−PC(w)∥⋅∥v−w∥ ∥PC(v)−PC(w)∥≤∥v−w∥
定理4
设
f
f
f是一个定义在闭凸集
C
C
C的连续可微的函数
设
s
>
0
s>0
s>0,则
x
∗
\mathbf{x}^*
x∗是问题(P)的稳定点,
当且仅当
x
∗
=
P
C
(
x
∗
−
s
∇
f
(
x
∗
)
)
\mathbf{x}^{*}=P_{C}\left(\mathbf{x}^{*}-s \nabla f\left(\mathbf{x}^{*}\right)\right)
x∗=PC(x∗−s∇f(x∗))
证明:
根据投影第二定理
x
∗
=
P
C
(
x
∗
−
s
∇
f
(
x
∗
)
)
\mathbf{x}^{*}=P_{C}\left(\mathbf{x}^{*}-s \nabla f\left(\mathbf{x}^{*}\right)\right)
x∗=PC(x∗−s∇f(x∗))
当且仅当
(
x
∗
−
s
∇
f
(
x
∗
)
−
x
∗
)
T
(
x
−
x
∗
)
≤
0
∀
x
∈
C
\left(\mathbf{x}^{*}-s \nabla f\left(\mathbf{x}^{*}\right)-\mathbf{x}^{*}\right)^{T}\left(\mathbf{x}-\mathbf{x}^{*}\right) \leq 0\ \forall \mathbf{x}\in C
(x∗−s∇f(x∗)−x∗)T(x−x∗)≤0 ∀x∈C
进而
∇
f
(
x
∗
)
T
(
x
−
x
∗
)
≥
0
,
∀
x
∈
C
\nabla f\left(\mathbf{x}^{*}\right)^{T}\left(\mathbf{x}-\mathbf{x}^{*}\right) \geq 0, \ \forall \mathbf{x}\in C
∇f(x∗)T(x−x∗)≥0, ∀x∈C
所以是一个稳定点
梯度投影法
随机选一个初始点
x
0
∈
C
\mathbf{x}_0\in C
x0∈C
a)用线搜索选择一个步长
t
k
t_k
tk
b)
x
k
+
1
=
P
C
(
x
k
−
t
k
∇
f
(
x
k
)
)
\mathbf{x}_{k+1}=P_{C}\left(\mathbf{x}_{k}-t_{k} \nabla f\left(\mathbf{x}_{k}\right)\right)
xk+1=PC(xk−tk∇f(xk))
c)如果
∥
x
k
−
x
k
+
1
∥
≤
ϵ
\|\mathbf{x}_k-\mathbf{x}_{k+1}\|\le \epsilon
∥xk−xk+1∥≤ϵ,则输出
x
k
+
1
\mathbf{x}_{k+1}
xk+1
其实这和我们的梯度方法差不都,只不过普通的梯度方法可能会超出这个 C C C,所以梯度投影法把他再投影回来
约束问题的充分下降引理
设
f
∈
C
L
1
,
1
(
C
)
f\in C_{L}^{1,1}(C)
f∈CL1,1(C)
其中
C
C
C是一个闭凸集
∀
x
∈
C
,
t
∈
(
0
,
2
L
)
\forall \mathbf{x}\in C,t\in(0,\frac{2}{L})
∀x∈C,t∈(0,L2),
f
(
x
)
−
f
(
P
C
(
x
−
t
∇
f
(
x
)
)
)
≥
t
(
1
−
L
t
2
)
∥
1
t
(
x
−
P
C
(
x
−
t
∇
f
(
x
)
)
)
∥
2
f(\mathbf{x})-f\left(P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))\right) \geq t\left(1-\frac{L t}{2}\right)\left\|\frac{1}{t}\left(\mathbf{x}-P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))\right)\right\|^{2}
f(x)−f(PC(x−t∇f(x)))≥t(1−2Lt)∥∥∥∥t1(x−PC(x−t∇f(x)))∥∥∥∥2
证明:
令
x
+
=
P
C
(
x
−
t
∇
f
(
x
)
)
\mathbf{x}^{+}=P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))
x+=PC(x−t∇f(x))
根据下降引理
f
(
x
+
)
≤
f
(
x
)
+
⟨
∇
f
(
x
)
,
x
+
−
x
⟩
+
L
2
∥
x
−
x
+
∥
2
f\left(\mathbf{x}^{+}\right) \leq f(\mathbf{x})+\left\langle\nabla f(\mathbf{x}), \mathbf{x}^{+}-\mathbf{x}\right\rangle+\frac{L}{2}\left\|\mathbf{x}-\mathbf{x}^{+}\right\|^{2}
f(x+)≤f(x)+⟨∇f(x),x+−x⟩+2L∥∥x−x+∥∥2
根据投影第二定理
⟨
x
−
t
∇
f
(
x
)
−
x
+
,
x
−
x
+
⟩
≤
0
⟨
∇
f
(
x
)
,
x
+
−
x
⟩
≤
−
1
t
∥
x
+
−
x
∥
2
\begin{aligned} \left\langle\mathbf{x}-t \nabla f(\mathbf{x})-\mathbf{x}^{+}, \mathbf{x}-\mathbf{x}^{+}\right\rangle &\leq 0\\ \left\langle\nabla f(\mathbf{x}), \mathbf{x}^{+}-\mathbf{x}\right\rangle &\leq-\frac{1}{t}\left\|\mathbf{x}^{+}-\mathbf{x}\right\|^{2} \end{aligned}
⟨x−t∇f(x)−x+,x−x+⟩⟨∇f(x),x+−x⟩≤0≤−t1∥∥x+−x∥∥2
结合一下
f
(
x
)
−
f
(
P
C
(
x
−
t
∇
f
(
x
)
)
)
≥
t
(
1
−
L
t
2
)
∥
1
t
(
x
−
P
C
(
x
−
t
∇
f
(
x
)
)
)
∥
2
f(\mathbf{x})-f\left(P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))\right) \geq t\left(1-\frac{L t}{2}\right)\left\|\frac{1}{t}\left(\mathbf{x}-P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))\right)\right\|^{2}
f(x)−f(PC(x−t∇f(x)))≥t(1−2Lt)∥∥∥∥t1(x−PC(x−t∇f(x)))∥∥∥∥2
梯度映射定义
G
M
(
x
)
=
M
[
x
−
P
C
(
x
−
1
M
∇
f
(
x
)
)
]
G_{M}(\mathbf{x})=M\left[\mathbf{x}-P_{C}\left(\mathbf{x}-\frac{1}{M} \nabla f(\mathbf{x})\right)\right]
GM(x)=M[x−PC(x−M1∇f(x))]
其中
M
>
0
M>0
M>0
所以下降引理也可以写成
f
(
x
)
−
f
(
P
C
(
x
−
t
∇
f
(
x
)
)
)
≥
t
(
1
−
L
t
2
)
∥
G
1
t
(
x
)
∥
2
f(\mathbf{x})-f\left(P_{C}(\mathbf{x}-t \nabla f(\mathbf{x}))\right) \geq t\left(1-\frac{L t}{2}\right)\left\|G_{\frac{1}{t}}(\mathbf{x})\right\|^{2}
f(x)−f(PC(x−t∇f(x)))≥t(1−2Lt)∥∥∥Gt1(x)∥∥∥2
定理6
设
f
f
f是定义在闭凸集
C
C
C上的连续可微函数
设
L
1
≥
L
2
L_1\ge L_2
L1≥L2,则
∀
x
∈
R
n
\forall \mathbf{x}\in \mathbb{R}^n
∀x∈Rn
∥
G
L
1
(
x
)
∥
≥
∥
G
L
2
(
x
)
∥
\left\|G_{L_{1}}(\mathbf{x})\right\| \geq\left\|G_{L_{2}}(\mathbf{x})\right\|
∥GL1(x)∥≥∥GL2(x)∥
或者
∥
G
L
1
(
x
)
∥
L
1
≤
∥
G
L
2
(
x
)
∥
L
2
\frac{\left\|G_{L_{1}}(\mathbf{x})\right\|}{L_{1}} \leq \frac{\left\|G_{L_{2}}(\mathbf{x})\right\|}{L_{2}}
L1∥GL1(x)∥≤L2∥GL2(x)∥
证明:利用投影第二定理
∀
v
∈
R
n
,
w
∈
C
\forall \mathbf{v}\in \mathbb{R}^n,\mathbf{w}\in C
∀v∈Rn,w∈C
⟨
v
−
P
C
(
v
)
,
P
C
(
v
)
−
w
⟩
≥
0
\left\langle\mathbf{v}-P_{C}(\mathbf{v}), P_{C}(\mathbf{v})-\mathbf{w}\right\rangle \geq 0
⟨v−PC(v),PC(v)−w⟩≥0
令
v
=
x
−
1
L
1
∇
f
(
x
)
,
w
=
P
C
(
x
−
1
L
2
∇
f
(
x
)
)
\mathbf{v}=\mathbf{x}-\frac{1}{L_{1}} \nabla f(\mathbf{x}),\mathbf{w}=P_{C}\left(\mathbf{x}-\frac{1}{L_{2}} \nabla f(\mathbf{x})\right)
v=x−L11∇f(x),w=PC(x−L21∇f(x))
于是
⟨
x
−
1
L
1
∇
f
(
x
)
−
P
C
(
x
−
1
L
1
∇
f
(
x
)
)
,
P
C
(
x
−
1
L
1
∇
f
(
x
)
)
−
P
C
(
x
−
1
L
2
∇
f
(
x
)
)
⟩
≥
0
\left\langle\mathrm{x}-\frac{1}{L_{1}} \nabla f(\mathrm{x})-P_{C}\left(\mathrm{x}-\frac{1}{L_{1}} \nabla f(\mathrm{x})\right), P_{C}\left(\mathrm{x}-\frac{1}{L_{1}} \nabla f(\mathrm{x})\right)-P_{C}\left(\mathrm{x}-\frac{1}{L_{2}} \nabla f(\mathrm{x})\right)\right\rangle \geq 0
⟨x−L11∇f(x)−PC(x−L11∇f(x)),PC(x−L11∇f(x))−PC(x−L21∇f(x))⟩≥0
或者
⟨
1
L
1
G
L
1
(
x
)
−
1
L
1
∇
f
(
x
)
,
1
L
2
G
L
2
(
x
)
−
1
L
1
G
L
1
(
x
)
⟩
≥
0
\left\langle\frac{1}{L_{1}} G_{L_{1}}(\mathbf{x})-\frac{1}{L_{1}} \nabla f(\mathbf{x}), \frac{1}{L_{2}} G_{L_{2}}(\mathbf{x})-\frac{1}{L_{1}} G_{L_{1}}(\mathbf{x})\right\rangle \geq 0
⟨L11GL1(x)−L11∇f(x),L21GL2(x)−L11GL1(x)⟩≥0
轮换一下
L
1
,
L
2
L_1,L_2
L1,L2
⟨
1
L
2
G
L
2
(
x
)
−
1
L
2
∇
f
(
x
)
,
1
L
1
G
L
1
(
x
)
−
1
L
2
G
L
2
(
x
)
⟩
≥
0
\left\langle\frac{1}{L_{2}} G_{L_{2}}(\mathbf{x})-\frac{1}{L_{2}} \nabla f(\mathbf{x}), \frac{1}{L_{1}} G_{L_{1}}(\mathbf{x})-\frac{1}{L_{2}} G_{L_{2}}(\mathbf{x})\right\rangle \geq 0
⟨L21GL2(x)−L21∇f(x),L11GL1(x)−L21GL2(x)⟩≥0
(
1
)
∗
L
1
+
(
2
)
∗
L
2
(1)*L_1+(2)*L_2
(1)∗L1+(2)∗L2得
⟨
G
L
1
(
x
)
−
G
L
2
(
x
)
,
1
L
2
G
L
2
(
x
)
−
1
L
1
G
L
1
(
x
)
⟩
≥
0
,
\left\langle G_{L_{1}}(\mathbf{x})-G_{L_{2}}(\mathbf{x}), \frac{1}{L_{2}} G_{L_{2}}(\mathbf{x})-\frac{1}{L_{1}} G_{L_{1}}(\mathbf{x})\right\rangle \geq 0,
⟨GL1(x)−GL2(x),L21GL2(x)−L11GL1(x)⟩≥0,
整理得
1
L
1
∥
G
L
1
(
x
)
∥
2
+
1
L
2
∥
G
L
2
(
x
)
∥
2
≤
(
1
L
1
+
1
L
2
)
G
L
1
(
x
)
T
G
L
2
(
x
)
\frac{1}{L_{1}}\left\|G_{L_{1}}(\mathbf{x})\right\|^{2}+\frac{1}{L_{2}}\left\|G_{L_{2}}(\mathbf{x})\right\|^{2} \leq\left(\frac{1}{L_{1}}+\frac{1}{L_{2}}\right) G_{L_{1}}(\mathbf{x})^{T} G_{L_{2}}(\mathbf{x})
L11∥GL1(x)∥2+L21∥GL2(x)∥2≤(L11+L21)GL1(x)TGL2(x)
利用柯西不等式
1
L
1
∥
G
L
1
(
x
)
∥
2
+
1
L
2
∥
G
L
2
(
x
)
∥
2
≤
(
1
L
1
+
1
L
2
)
∥
G
L
1
(
x
)
∥
⋅
∥
G
L
2
(
x
)
∥
\frac{1}{L_{1}}\left\|G_{L_{1}}(\mathbf{x})\right\|^{2}+\frac{1}{L_{2}}\left\|G_{L_{2}}(\mathbf{x})\right\|^{2} \leq\left(\frac{1}{L_{1}}+\frac{1}{L_{2}}\right)\left\|G_{L_{1}}(\mathbf{x})\right\| \cdot\left\|G_{L_{2}}(\mathbf{x})\right\|
L11∥GL1(x)∥2+L21∥GL2(x)∥2≤(L11+L21)∥GL1(x)∥⋅∥GL2(x)∥
如果
G
L
2
(
x
)
=
0
G_{L_2}(\mathbf{x})=0
GL2(x)=0,则结论成立
如果
G
L
2
(
x
)
≠
0
G_{L_2}(\mathbf{x})\neq 0
GL2(x)=0
令
t
=
∥
G
L
1
(
x
)
∥
∥
G
L
2
(
x
)
∥
t=\frac{\left\|G_{L_{1}}(\mathrm{x})\right\|}{\left\|G_{L_{2}}(\mathrm{x})\right\|}
t=∥GL2(x)∥∥GL1(x)∥
则
1
L
1
t
2
−
(
1
L
1
+
1
L
2
)
t
+
1
L
2
≤
0
(
t
−
1
)
(
1
L
1
t
−
1
L
2
)
≤
0
1
≤
t
≤
L
1
L
2
\begin{aligned} \frac{1}{L_1}t^2-(\frac{1}{L_1}+\frac{1}{L_2})t+\frac{1}{L_2}&\le 0\\ (t-1)(\frac{1}{L_1}t-\frac{1}{L_2})&\le 0\\ 1\le t\le\frac{L_1}{L_2} \end{aligned}
L11t2−(L11+L21)t+L21(t−1)(L11t−L21)1≤t≤L2L1≤0≤0
于是
∥
G
L
2
(
x
)
∥
≤
∥
G
L
1
(
x
)
∥
≤
L
1
L
2
∥
G
L
2
(
x
)
∥
.
\left\|G_{L_{2}}(\mathbf{x})\right\| \leq\left\|G_{L_{1}}(\mathbf{x})\right\| \leq \frac{L_{1}}{L_{2}}\left\|G_{L_{2}}(\mathbf{x})\right\| .
∥GL2(x)∥≤∥GL1(x)∥≤L2L1∥GL2(x)∥.
回溯法
设参数
(
s
,
α
,
β
)
(s,\alpha,\beta)
(s,α,β),其中
s
>
0
,
α
∈
(
0
,
1
)
,
β
∈
(
0
,
1
)
s>0,\alpha\in(0,1),\beta \in (0,1)
s>0,α∈(0,1),β∈(0,1)
一开始
t
k
=
s
t_k=s
tk=s
当
f
(
x
k
)
−
f
(
P
C
(
x
k
−
t
k
∇
f
(
x
k
)
)
)
<
α
t
k
∥
G
1
t
(
x
k
)
∥
2
f\left(\mathbf{x}_{k}\right)-f\left(P_{C}\left(\mathbf{x}_{k}-t_{k} \nabla f\left(\mathbf{x}_{k}\right)\right)\right)<\alpha t_{k}\left\|G_{\frac{1}{t}}\left(\mathbf{x}_{k}\right)\right\|^{2}
f(xk)−f(PC(xk−tk∇f(xk)))<αtk∥∥∥Gt1(xk)∥∥∥2
时,
令
t
k
=
β
t
k
t_k=\beta t_k
tk=βtk
也就是说
t
k
=
s
β
i
k
t_k=s\beta^{i_k}
tk=sβik,其中
i
k
i_k
ik是满足
f
(
x
k
)
−
f
(
P
C
(
x
k
−
s
β
i
k
∇
f
(
x
k
)
)
)
≥
α
s
β
i
k
∥
G
1
s
β
i
k
(
x
k
)
∥
2
f\left(\mathbf{x}_{k}\right)-f\left(P_{C}\left(\mathbf{x}_{k}-s \beta^{i_{k}} \nabla f\left(\mathbf{x}_{k}\right)\right)\right) \geq \alpha s \beta^{i_{k}}\left\|G_{\frac{1}{s \beta^{i} k}}\left(\mathbf{x}_{k}\right)\right\|^{2}
f(xk)−f(PC(xk−sβik∇f(xk)))≥αsβik∥∥∥Gsβik1(xk)∥∥∥2
的最小非负整数
如果
t
k
=
s
t_k=s
tk=s满足条件
显然
t
k
≥
s
t_k\ge s
tk≥s
如果不满足,则
t
k
=
s
β
i
k
t_k=s\beta^{i_k}
tk=sβik时才满足条件
也就是说
t
k
β
\frac{t_k}{\beta}
βtk是不满足条件的
即
f
(
x
k
)
−
f
(
P
C
(
x
k
−
t
k
β
∇
f
(
x
k
)
)
)
<
α
t
k
∥
G
β
t
k
(
x
k
)
∥
2
f\left(\mathbf{x}_{k}\right)-f\left(P_{C}\left(\mathbf{x}_{k}-\frac{t_k}{\beta} \nabla f\left(\mathbf{x}_{k}\right)\right)\right)<\alpha t_{k}\left\|G_{\frac{\beta}{t_k}}\left(\mathbf{x}_{k}\right)\right\|^{2}
f(xk)−f(PC(xk−βtk∇f(xk)))<αtk∥∥∥Gtkβ(xk)∥∥∥2
x
=
x
k
,
t
=
t
k
β
x=x_k,t=\frac{t_k}{\beta}
x=xk,t=βtk代入充分下降引理得
f
(
x
k
)
−
f
(
P
C
(
x
k
−
t
k
β
∇
f
(
x
k
)
)
≥
t
k
β
(
1
−
L
t
k
2
β
)
∥
G
β
t
k
(
x
k
)
∥
2
f\left(\mathbf{x}_{k}\right)-f (P_{C}\left(\mathbf{x}_{k}-\frac{t_k}{\beta} \nabla f\left(\mathbf{x}_{k}\right)\right) \geq \frac{t_k}{\beta}\left(1-\frac{L t_k}{2\beta}\right)\left\|G_{\frac{\beta}{t_k}}\left(\mathbf{x}_{k}\right)\right\|^{2}
f(xk)−f(PC(xk−βtk∇f(xk))≥βtk(1−2βLtk)∥∥∥Gtkβ(xk)∥∥∥2
取这两个式子的右边,得
t
k
β
(
1
−
L
t
k
2
β
)
∥
G
β
t
k
(
x
k
)
∥
2
<
α
t
k
∥
G
β
t
k
(
x
k
)
∥
2
⇒
t
k
≥
2
(
1
−
α
)
β
L
\frac{t_k}{\beta}\left(1-\frac{L t_k}{2\beta}\right)\left\|G_{\frac{\beta}{t_k}}\left(\mathbf{x}_{k}\right)\right\|^{2} <\alpha t_{k}\left\|G_{\frac{\beta}{t_k}}\left(\mathbf{x}_{k}\right)\right\|^{2} \Rightarrow t_k\ge \frac{2(1-\alpha)\beta}{L}
βtk(1−2βLtk)∥∥∥Gtkβ(xk)∥∥∥2<αtk∥∥∥Gtkβ(xk)∥∥∥2⇒tk≥L2(1−α)β
综上所述
t
k
≥
min
{
s
,
2
(
1
−
α
)
β
L
}
t_{k} \geq \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\}
tk≥min{s,L2(1−α)β}
引理1
考虑问题(P)
设
C
C
C是一个闭凸集
f
∈
C
L
1
,
1
(
C
)
f\in C_L^{1,1}(C)
f∈CL1,1(C)有下界
设
{
x
k
}
k
≥
0
\{\mathbf{x}_k\}_{k\ge 0}
{xk}k≥0是利用梯度投影法产生的序列,
其中步长用的要么是固定步长
t
k
=
t
ˉ
∈
(
0
,
2
L
)
t_k=\bar{t}\in(0,\frac{2}{L})
tk=tˉ∈(0,L2),要么是回溯法(其中参数
(
s
,
α
,
β
)
(s,\alpha,\beta)
(s,α,β)满足
s
>
0
,
α
∈
(
0
,
1
)
,
β
∈
(
0
,
1
)
s>0,\alpha\in(0,1),\beta\in(0,1)
s>0,α∈(0,1),β∈(0,1))
那么
∀
k
≥
0
\forall k\ge 0
∀k≥0
f
(
x
k
)
−
f
(
x
k
+
1
)
≥
M
∥
G
d
(
x
k
)
∥
2
f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq M\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2}
f(xk)−f(xk+1)≥M∥Gd(xk)∥2
其中
M
=
{
t
ˉ
(
1
−
t
ˉ
L
2
)
固定步长
α
min
{
s
,
2
(
1
−
α
)
β
L
}
回溯法
M= \begin{cases}\bar{t}\left(1-\frac{\bar{t} L}{2}\right) & \text { 固定步长 } \\ \alpha \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\} & \text { 回溯法 }\end{cases}
M=⎩⎨⎧tˉ(1−2tˉL)αmin{s,L2(1−α)β} 固定步长 回溯法
且
d
=
{
1
/
t
ˉ
固定步长
1
/
s
回溯法
d= \begin{cases}1 / \bar{t} & \text { 固定步长 } \\ 1 / s & \text { 回溯法 }\end{cases}
d={1/tˉ1/s 固定步长 回溯法
证明:
固定步长:直接代入,成立
回溯法:
因为回溯法,
t
k
t_k
tk其实是越来越小的,所以,
t
k
≤
s
t_k\le s
tk≤s
根据定理6
∥
G
1
/
t
k
(
x
k
)
∥
≥
∥
G
1
/
s
(
x
k
)
∥
\left\|G_{1 / t_{k}}\left(\mathbf{x}_{k}\right)\right\| \geq\left\|G_{1 / s}\left(\mathbf{x}_{k}\right)\right\|
∥∥G1/tk(xk)∥∥≥∥∥G1/s(xk)∥∥
所以
f
(
x
k
)
−
f
(
x
k
+
1
)
≥
α
t
k
∥
G
1
t
k
(
x
k
)
∥
2
≥
α
min
{
s
,
2
(
1
−
α
)
β
L
}
∥
G
1
/
s
(
x
k
)
∥
2
f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq \alpha t_k\left\|G_{\frac{1}{t_k}}\left(\mathbf{x}_{k}\right)\right\|^{2}\ge \alpha \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\}\left\|G_{1 / s}\left(\mathbf{x}_{k}\right)\right\|^2
f(xk)−f(xk+1)≥αtk∥∥∥Gtk1(xk)∥∥∥2≥αmin{s,L2(1−α)β}∥∥G1/s(xk)∥∥2
成立
收敛性
考虑问题(P)
设
C
C
C是一个闭凸集
f
∈
C
L
1
,
1
(
C
)
f\in C_L^{1,1}(C)
f∈CL1,1(C)有下界
设
{
x
k
}
k
≥
0
\{\mathbf{x}_k\}_{k\ge 0}
{xk}k≥0是利用梯度投影法产生的序列,
其中步长用的要么是固定步长
t
k
=
t
ˉ
∈
(
0
,
2
L
)
t_k=\bar{t}\in(0,\frac{2}{L})
tk=tˉ∈(0,L2),要么是回溯法(其中参数
(
s
,
α
,
β
)
(s,\alpha,\beta)
(s,α,β)满足
s
>
0
,
α
∈
(
0
,
1
)
,
β
∈
(
0
,
1
)
s>0,\alpha\in(0,1),\beta\in(0,1)
s>0,α∈(0,1),β∈(0,1)),那么
(a)序列
{
f
(
x
k
)
}
\{f(\mathbf{x}_k)\}
{f(xk)}单调不增,并且
f
(
x
k
+
1
)
<
f
(
x
k
)
f(\mathbf{x}_{k+1})<f(\mathbf{x}_k)
f(xk+1)<f(xk),除非
x
k
\mathbf{x}_k
xk是一个稳定点
(b)当
k
→
∞
k\to \infty
k→∞时,
G
d
(
x
k
)
→
0
G_d(\mathbf{x}_k)\to 0
Gd(xk)→0
其中
d
=
{
1
/
t
ˉ
固定步长
1
/
s
回溯法
d= \begin{cases}1 / \bar{t} & \text { 固定步长 } \\ 1 / s & \text { 回溯法 }\end{cases}
d={1/tˉ1/s 固定步长 回溯法
证明:
(a)
由引理
f
(
x
k
)
−
f
(
x
k
+
1
)
≥
M
∥
G
d
(
x
k
)
∥
2
≥
0
f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right) \geq M\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2}\ge 0
f(xk)−f(xk+1)≥M∥Gd(xk)∥2≥0
所以单调不增
当且仅当
G
d
(
x
k
)
=
0
G_{d}\left(\mathbf{x}_{k}\right)=0
Gd(xk)=0时取等
也就是说
x
k
\mathbf{x}_k
xk是一个稳定点
(b)
因为
{
f
(
x
k
)
}
\{f(\mathbf{x}_k)\}
{f(xk)}单调递减有下界,收敛
所以
k
→
∞
,
f
(
x
k
)
−
f
(
x
k
+
1
)
→
0
k\to \infty,f(\mathbf{x}_k)-f(\mathbf{x}_{k+1})\to 0
k→∞,f(xk)−f(xk+1)→0
于是当
k
→
∞
k\to \infty
k→∞时,
G
d
(
x
k
)
→
0
G_d(\mathbf{x}_k)\to 0
Gd(xk)→0
收敛速率
在上面的条件下
设
f
∗
f^*
f∗是序列
{
f
(
x
k
)
}
\{f(\mathbf{x}_k)\}
{f(xk)}的极限,那么
∀
n
=
0
,
1
,
2
,
⋯
\forall n=0,1,2,\cdots
∀n=0,1,2,⋯
min
k
=
0
,
1
,
…
,
n
∥
G
d
(
x
k
)
∥
≤
f
(
x
0
)
−
f
∗
M
(
n
+
1
)
\min _{k=0,1, \ldots, n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\| \leq \sqrt{\frac{f\left(\mathbf{x}_{0}\right)-f^{*}}{M(n+1)}}
k=0,1,…,nmin∥Gd(xk)∥≤M(n+1)f(x0)−f∗
其中
M
=
{
t
ˉ
(
1
−
t
ˉ
L
2
)
固定步长
α
min
{
s
,
2
(
1
−
α
)
β
L
}
回溯法
M= \begin{cases}\bar{t}\left(1-\frac{\bar{t} L}{2}\right) & \text { 固定步长 } \\ \alpha \min \left\{s, \frac{2(1-\alpha) \beta}{L}\right\} & \text { 回溯法 }\end{cases}
M=⎩⎨⎧tˉ(1−2tˉL)αmin{s,L2(1−α)β} 固定步长 回溯法
且
d
=
{
1
/
t
ˉ
固定步长
1
/
s
回溯法
d= \begin{cases}1 / \bar{t} & \text { 固定步长 } \\ 1 / s & \text { 回溯法 }\end{cases}
d={1/tˉ1/s 固定步长 回溯法
证明:
∑
k
=
0
n
(
f
(
x
k
)
−
f
(
x
k
+
1
)
)
≥
∑
k
=
0
n
M
∥
G
d
(
x
k
)
∥
2
f
(
x
0
)
−
f
(
x
n
+
1
)
≥
M
∑
k
=
0
n
∥
G
d
(
x
k
)
∥
2
\begin{aligned} \sum_{k=0}^{n}\left(f\left(\mathbf{x}_{k}\right)-f\left(\mathbf{x}_{k+1}\right)\right) &\geq \sum_{k=0}^{n}M\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2}\\ f\left(\mathbf{x}_{0}\right)-f\left(\mathbf{x}_{n+1}\right) &\geq M \sum_{k=0}^{n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2} \end{aligned}
k=0∑n(f(xk)−f(xk+1))f(x0)−f(xn+1)≥k=0∑nM∥Gd(xk)∥2≥Mk=0∑n∥Gd(xk)∥2
又因为
f
(
x
n
+
1
)
≥
f
∗
f(\mathbf{x}_{n+1})\ge f^*
f(xn+1)≥f∗
所以
f
(
x
0
)
−
f
∗
≥
f
(
x
0
)
−
f
(
x
n
+
1
)
≥
M
∑
k
=
0
n
∥
G
d
(
x
k
)
∥
2
f\left(\mathbf{x}_{0}\right)-f^*\ge f\left(\mathbf{x}_{0}\right)-f\left(\mathbf{x}_{n+1}\right) \geq M \sum_{k=0}^{n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2}
f(x0)−f∗≥f(x0)−f(xn+1)≥Mk=0∑n∥Gd(xk)∥2
又因为
∑
k
=
0
n
∥
G
d
(
x
k
)
∥
2
≥
(
n
+
1
)
min
k
=
0
,
1
,
…
,
n
∥
G
d
(
x
k
)
∥
2
\sum_{k=0}^{n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2}\ge (n+1) \min _{k=0,1, \ldots, n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2}
k=0∑n∥Gd(xk)∥2≥(n+1)k=0,1,…,nmin∥Gd(xk)∥2
所以
f
(
x
0
)
−
f
∗
≥
M
(
n
+
1
)
min
k
=
0
,
1
,
…
,
n
∥
G
d
(
x
k
)
∥
2
f\left(\mathbf{x}_{0}\right)-f^*\ge M(n+1) \min _{k=0,1, \ldots, n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\|^{2}
f(x0)−f∗≥M(n+1)k=0,1,…,nmin∥Gd(xk)∥2
进而
min
k
=
0
,
1
,
…
,
n
∥
G
d
(
x
k
)
∥
≤
f
(
x
0
)
−
f
∗
M
(
n
+
1
)
\min _{k=0,1, \ldots, n}\left\|G_{d}\left(\mathbf{x}_{k}\right)\right\| \leq \sqrt{\frac{f\left(\mathbf{x}_{0}\right)-f^{*}}{M(n+1)}}
k=0,1,…,nmin∥Gd(xk)∥≤M(n+1)f(x0)−f∗
凸函数
(P)
min
f
(
x
)
s.t.
x
∈
C
\begin{array}{lll} \text { (P) } & \min & f(\mathbf{x}) \\ & \text { s.t. } & x \in C \end{array}
(P) min s.t. f(x)x∈C
其中
f
f
f是一个定义在闭凸集
C
C
C上的连续可微函数。
设
{
x
k
}
k
≥
0
\{\mathbf{x}_k\}_{k\ge 0}
{xk}k≥0是梯度投影法用固定步长
t
ˉ
∈
(
0
,
1
L
]
\bar{t}\in (0,\frac{1}{L}]
tˉ∈(0,L1]产生的序列。
假设
X
∗
X^*
X∗是最优解集,并且非空,
f
∗
f^*
f∗是最优解,则
(a)
∀
k
≥
0
,
x
∗
∈
X
∗
\forall k\ge 0,\mathbf{x}^*\in X^*
∀k≥0,x∗∈X∗
2
t
ˉ
(
f
(
x
k
+
1
)
−
f
(
x
∗
)
)
≤
∥
x
k
−
x
∗
∥
2
−
∥
x
k
+
1
−
x
∗
∥
2
2 \bar{t}\left(f\left(\mathbf{x}_{k+1}\right)-f\left(\mathbf{x}^{*}\right)\right) \leq\left\|\mathbf{x}_{k}-\mathbf{x}^{*}\right\|^{2}-\left\|\mathbf{x}_{k+1}-\mathbf{x}^{*}\right\|^{2}
2tˉ(f(xk+1)−f(x∗))≤∥xk−x∗∥2−∥xk+1−x∗∥2
(b)
∀
n
≥
0
\forall n\ge 0
∀n≥0
f
(
x
n
)
−
f
∗
≤
∥
x
0
−
x
∗
∥
2
2
t
ˉ
n
f\left(\mathbf{x}_{n}\right)-f^{*} \leq \frac{\left\|\mathbf{x}_{0}-\mathbf{x}^{*}\right\|^{2}}{2 \bar{t} n}
f(xn)−f∗≤2tˉn∥x0−x∗∥2
证明:
(a)
由下降引理
f
(
x
k
+
1
)
≤
f
(
x
k
)
+
⟨
∇
f
(
x
k
)
,
x
k
+
1
−
x
k
⟩
+
L
2
∥
x
k
−
x
k
+
1
∥
2
f\left(\mathbf{x}_{k+1}\right) \leq f\left(\mathbf{x}_{k}\right)+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k+1}-\mathbf{x}_{k}\right\rangle+\frac{L}{2}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2}
f(xk+1)≤f(xk)+⟨∇f(xk),xk+1−xk⟩+2L∥xk−xk+1∥2
根据凸函数的一节条件
f
(
x
k
)
≤
f
(
x
∗
)
+
⟨
∇
f
(
x
∗
)
,
x
k
−
x
∗
⟩
f(\mathbf{x}_k)\le f(\mathbf{x}^*)+\left\langle \nabla f(\mathbf{x}^*),\mathbf{x}_k-\mathbf{x}^* \right\rangle
f(xk)≤f(x∗)+⟨∇f(x∗),xk−x∗⟩
有
f
(
x
k
+
1
)
≤
f
(
x
∗
)
+
⟨
∇
f
(
x
k
)
,
x
k
−
x
∗
⟩
+
⟨
∇
f
(
x
k
)
,
x
k
+
1
−
x
k
⟩
+
L
2
∥
x
k
−
x
k
+
1
∥
2
.
f\left(\mathbf{x}_{k+1}\right) \leq f\left(\mathbf{x}^{*}\right)+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k}-\mathbf{x}^{*}\right\rangle+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k+1}-\mathbf{x}_{k}\right\rangle+\frac{L}{2}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} .
f(xk+1)≤f(x∗)+⟨∇f(xk),xk−x∗⟩+⟨∇f(xk),xk+1−xk⟩+2L∥xk−xk+1∥2.
根据第二投影定理
⟨
x
k
−
t
ˉ
∇
f
(
x
k
)
−
x
k
+
1
,
x
∗
−
x
k
+
1
⟩
≤
0
\left\langle\mathbf{x}_{k}-\bar{t} \nabla f\left(\mathbf{x}_{k}\right)-\mathbf{x}_{k+1}, \mathbf{x}^{*}-\mathbf{x}_{k+1}\right\rangle \leq 0
⟨xk−tˉ∇f(xk)−xk+1,x∗−xk+1⟩≤0
于是
⟨
∇
f
(
x
k
)
,
x
k
+
1
−
x
∗
⟩
≤
1
t
ˉ
⟨
x
k
−
x
k
+
1
,
x
k
+
1
−
x
∗
⟩
\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k+1}-\mathbf{x}^{*}\right\rangle \leq \frac{1}{\bar{t}}\left\langle\mathbf{x}_{k}-\mathbf{x}_{k+1}, \mathbf{x}_{k+1}-\mathbf{x}^{*}\right\rangle
⟨∇f(xk),xk+1−x∗⟩≤tˉ1⟨xk−xk+1,xk+1−x∗⟩
因为
t
ˉ
≤
1
L
\bar{t}\le \frac{1}{L}
tˉ≤L1
f
(
x
k
+
1
)
≤
f
(
x
∗
)
+
⟨
∇
f
(
x
k
)
,
x
k
−
x
∗
⟩
+
⟨
∇
f
(
x
k
)
,
x
k
+
1
−
x
k
⟩
+
L
2
∥
x
k
−
x
k
+
1
∥
2
=
f
(
x
∗
)
+
⟨
∇
f
(
x
k
)
,
x
k
+
1
−
x
∗
⟩
+
L
2
∥
x
k
−
x
k
+
1
∥
2
≤
f
(
x
∗
)
+
1
t
ˉ
⟨
x
k
−
x
k
+
1
,
x
k
+
1
−
x
∗
⟩
+
L
2
∥
x
k
−
x
k
+
1
∥
2
≤
f
(
x
∗
)
+
1
t
ˉ
⟨
x
k
−
x
k
+
1
,
x
k
+
1
−
x
∗
⟩
+
1
2
t
ˉ
∥
x
k
−
x
k
+
1
∥
2
=
f
(
x
∗
)
+
1
2
t
ˉ
(
∥
x
k
−
x
∗
∥
2
−
∥
x
k
+
1
−
x
∗
∥
2
)
\begin{aligned} f\left(\mathbf{x}_{k+1}\right) & \leq f\left(\mathbf{x}^{*}\right)+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k}-\mathbf{x}^{*}\right\rangle+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k+1}-\mathbf{x}_{k}\right\rangle+\frac{L}{2}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} \\ &=f\left(\mathbf{x}^{*}\right)+\left\langle\nabla f\left(\mathbf{x}_{k}\right), \mathbf{x}_{k+1}-\mathbf{x}^{*}\right\rangle+\frac{L}{2}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} \\ & \leq f\left(\mathbf{x}^{*}\right)+\frac{1}{\bar{t}}\left\langle\mathbf{x}_{k}-\mathbf{x}_{k+1}, \mathbf{x}_{k+1}-\mathbf{x}^{*}\right\rangle+\frac{L}{2}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} \\ & \leq f\left(\mathbf{x}^{*}\right)+\frac{1}{\bar{t}}\left\langle\mathbf{x}_{k}-\mathbf{x}_{k+1}, \mathbf{x}_{k+1}-\mathbf{x}^{*}\right\rangle+\frac{1}{2 \bar{t}}\left\|\mathbf{x}_{k}-\mathbf{x}_{k+1}\right\|^{2} \\ &=f\left(\mathbf{x}^{*}\right)+\frac{1}{2 \bar{t}}\left(\left\|\mathbf{x}_{k}-\mathbf{x}^{*}\right\|^{2}-\left\|\mathbf{x}_{k+1}-\mathbf{x}^{*}\right\|^{2}\right) \end{aligned}
f(xk+1)≤f(x∗)+⟨∇f(xk),xk−x∗⟩+⟨∇f(xk),xk+1−xk⟩+2L∥xk−xk+1∥2=f(x∗)+⟨∇f(xk),xk+1−x∗⟩+2L∥xk−xk+1∥2≤f(x∗)+tˉ1⟨xk−xk+1,xk+1−x∗⟩+2L∥xk−xk+1∥2≤f(x∗)+tˉ1⟨xk−xk+1,xk+1−x∗⟩+2tˉ1∥xk−xk+1∥2=f(x∗)+2tˉ1(∥xk−x∗∥2−∥xk+1−x∗∥2)
(b)
对(a)的结论进行累加
∑
k
=
0
n
−
1
(
∥
x
k
+
1
−
x
∗
∥
2
−
∥
x
k
−
x
∗
∥
2
)
≤
∑
k
=
0
n
−
1
2
t
ˉ
(
f
(
x
∗
)
−
f
(
x
k
+
1
)
)
∥
x
n
−
x
∗
∥
2
−
∥
x
0
−
x
∗
∥
2
≤
2
n
t
ˉ
(
f
(
x
∗
)
−
f
(
x
n
)
)
\begin{aligned} \sum_{k=0}^{n-1}\left( \left\|\mathbf{x}_{k+1}-\mathbf{x}^{*}\right\|^{2}-\left\|\mathbf{x}_{k}-\mathbf{x}^{*}\right\|^{2}\right) &\leq \sum_{k=0}^{n-1}2 \bar{t}\left(f\left(\mathbf{x}^{*}\right)-f\left(\mathbf{x}_{k+1}\right)\right)\\ \left\|\mathbf{x}_{n}-\mathbf{x}^{*}\right\|^{2}-\left\|\mathbf{x}_{0}-\mathbf{x}^{*}\right\|^{2} &\leq 2n \bar{t}\left(f\left(\mathbf{x}^{*}\right)-f\left(\mathbf{x}_{n}\right)\right) \end{aligned}
k=0∑n−1(∥xk+1−x∗∥2−∥xk−x∗∥2)∥xn−x∗∥2−∥x0−x∗∥2≤k=0∑n−12tˉ(f(x∗)−f(xk+1))≤2ntˉ(f(x∗)−f(xn))
因此
f
(
x
n
)
−
f
∗
≤
∥
x
0
−
x
∗
∥
2
−
∥
x
n
−
x
∗
∥
2
2
t
ˉ
n
≤
∥
x
0
−
x
∗
∥
2
2
t
ˉ
n
f\left(\mathbf{x}_{n}\right)-f^{*} \leq \frac{\left\|\mathbf{x}_{0}-\mathbf{x}^{*}\right\|^{2}-\left\|\mathbf{x}_{n}-\mathbf{x}^{*}\right\|^{2}}{2 \bar{t} n} \leq \frac{\left\|\mathbf{x}_{0}-\mathbf{x}^{*}\right\|^{2}}{2 \bar{t} n}
f(xn)−f∗≤2tˉn∥x0−x∗∥2−∥xn−x∗∥2≤2tˉn∥x0−x∗∥2
引理2
在刚才的条件下
产生的序列
{
x
k
}
k
≥
0
\{\mathbf{x}_k\}_{k\ge 0}
{xk}k≥0,对于
∀
x
∗
∈
X
∗
,
k
≥
0
\forall \mathbf{x}^*\in X^*,k\ge 0
∀x∗∈X∗,k≥0,有
∥
x
k
+
1
−
x
∗
∥
≤
∥
x
k
−
x
∗
∥
\left\|\mathrm{x}_{k+1}-\mathrm{x}^{*}\right\| \leq\left\|\mathrm{x}_{k}-\mathrm{x}^{*}\right\|
∥xk+1−x∗∥≤∥xk−x∗∥
证明:
利用(a)的结论,显然成立
定理7
在刚才的条件下
设
{
x
k
}
k
≥
0
\{\mathbf{x}_k\}_{k\ge 0}
{xk}k≥0是梯度投影法用固定步长
t
ˉ
∈
(
0
,
1
L
]
\bar{t}\in (0,\frac{1}{L}]
tˉ∈(0,L1]产生的序列,
则这个序列收敛到最优解
证明:
摸了
稀疏约束问题
min
f
(
x
)
(S)
s.t.
∥
x
∥
0
≤
s
\begin{array}{lll} & \min & f(\mathbf{x}) \\ \text { (S) } & \text { s.t. } & \|\mathbf{x}\|_{0} \leq s \end{array}
(S) min s.t. f(x)∥x∥0≤s
其中
f
:
R
n
→
R
f:\mathbb{R}^n\to \mathbb{R}
f:Rn→R是一个连续可微的有下界的函数,并且梯度Lipschitz常数为
L
f
L_f
Lf,
s
>
0
s>0
s>0
∥
x
∥
0
=
∣
{
i
:
x
i
≠
0
}
∣
.
\|\mathbf{x}\|_{0}=\left|\left\{i: x_{i} \neq 0\right\}\right| .
∥x∥0=∣{i:xi=0}∣.
令
I
1
(
x
)
≡
{
i
:
x
i
≠
0
}
I_{1}(\mathbf{x}) \equiv\left\{i: x_{i} \neq 0\right\}
I1(x)≡{i:xi=0}
I
0
(
x
)
≡
{
i
:
x
i
=
0
}
I_{0}(\mathbf{x}) \equiv\left\{i: x_{i} = 0\right\}
I0(x)≡{i:xi=0}
C
s
=
{
x
:
∥
x
∥
0
≤
s
}
C_{s}=\left\{\mathbf{x}:\|\mathbf{x}\|_{0} \leq s\right\}
Cs={x:∥x∥0≤s}
于是问题(S)可以写成
min
{
f
(
x
)
:
x
∈
C
s
}
\min\left\{f(\mathbf{x}):\mathbf{x}\in C_s\right\}
min{f(x):x∈Cs}
接着
M
i
(
x
)
M_i(\mathbf{x})
Mi(x)表示
x
\mathbf{x}
x分量中绝对值最大的
现在我们来解这个问题
L-稳定
前面正交投影算子要求是一个凸集,但是这个
C
s
C_s
Cs并不是一个凸集,所以,最优解不唯一。
P
C
s
(
x
)
=
argmin
y
{
∥
y
−
x
∥
:
y
∈
C
s
}
P_{C_{s}}(\mathbf{x})=\operatorname{argmin}_{\mathbf{y}}\left\{\|\mathbf{y}-\mathbf{x}\|: \mathbf{y} \in C_{s}\right\}
PCs(x)=argminy{∥y−x∥:y∈Cs}
因为目标函数依然是强制函数,
C
s
C_s
Cs是闭集,所以一定是有解的
L-稳定点
x
∗
∈
C
s
\mathbf{x}^*\in C_s
x∗∈Cs如果满足
[
N
C
L
]
x
∗
∈
P
C
s
(
x
∗
−
1
L
∇
f
(
x
∗
)
)
\left[\mathrm{NC}_{L}\right] \quad \mathrm{x}^{*} \in P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right)
[NCL]x∗∈PCs(x∗−L1∇f(x∗))
则称为问题(S)的L-稳定点(L-stationarity point)
引理3
∀
L
>
0
,
x
∗
∈
C
s
\forall L>0,\mathbf{x}^* \in C_s
∀L>0,x∗∈Cs,满足
[
N
C
L
]
\left[NC_L\right]
[NCL]当且仅当
∣
∂
f
∂
x
i
(
x
∗
)
∣
{
≤
L
M
s
(
x
∗
)
if
i
∈
I
0
(
x
∗
)
,
=
0
if
i
∈
I
1
(
x
∗
)
.
\left|\frac{\partial f}{\partial x_{i}}\left(\mathbf{x}^{*}\right)\right| \begin{cases}\leq L M_{s}\left(\mathbf{x}^{*}\right) & \text { if } i \in I_{0}\left(\mathbf{x}^{*}\right), \\ =0 & \text { if } i \in I_{1}\left(\mathbf{x}^{*}\right) .\end{cases}
∣∣∣∣∂xi∂f(x∗)∣∣∣∣{≤LMs(x∗)=0 if i∈I0(x∗), if i∈I1(x∗).
证明:
必要性:
x
∗
\mathbf{x}^*
x∗满足
[
N
C
L
]
\left[NC_L\right]
[NCL]
注意到
P
C
s
(
x
∗
−
1
L
∇
f
(
x
∗
)
)
P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right)
PCs(x∗−L1∇f(x∗))中的分量要么为0,要么为
x
j
−
1
L
∂
f
∂
x
j
(
x
∗
)
\mathbf{x}_j-\frac{1}{L}\frac{\partial f}{\partial x_j}(\mathbf{x}^*)
xj−L1∂xj∂f(x∗)
因为
x
∗
∈
P
C
s
(
x
∗
−
1
L
∇
f
(
x
∗
)
)
\mathrm{x}^{*} \in P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right)
x∗∈PCs(x∗−L1∇f(x∗))
所以如果
i
∈
I
1
(
x
∗
)
i \in I_{1}\left(\mathbf{x}^{*}\right)
i∈I1(x∗),则
x
i
∗
=
x
i
∗
−
1
L
∂
f
∂
x
i
(
x
∗
)
x_{i}^{*}=x_{i}^{*}-\frac{1}{L} \frac{\partial f}{\partial x_{i}}\left(\mathbf{x}^{*}\right)
xi∗=xi∗−L1∂xi∂f(x∗)
如果
i
∈
I
0
(
x
∗
)
i \in I_{0}\left(\mathbf{x}^{*}\right)
i∈I0(x∗),则
∣
x
i
∗
−
1
L
∂
f
∂
x
i
(
x
∗
)
∣
≤
M
s
(
x
∗
)
\left|x_{i}^{*}-\frac{1}{L} \frac{\partial f}{\partial x_{i}}\left(\mathbf{x}^{*}\right)\right| \leq M_{s}\left(\mathbf{x}^{*}\right)
∣∣∣xi∗−L1∂xi∂f(x∗)∣∣∣≤Ms(x∗)
又因为
x
i
∗
=
0
x_i^*=0
xi∗=0,所以
∣
∂
f
∂
x
i
(
x
∗
)
∣
≤
L
M
s
(
x
∗
)
\left| \frac{\partial f}{\partial x_{i}}\left(\mathbf{x}^{*}\right)\right| \leq LM_{s}\left(\mathbf{x}^{*}\right)
∣∣∣∂xi∂f(x∗)∣∣∣≤LMs(x∗)
充分性:
如果
∥
x
∗
∥
0
<
s
\|\mathbf{x}^*\|_0<s
∥x∗∥0<s,则
M
s
(
x
∗
)
=
0
M_s(\mathbf{x}^*)=0
Ms(x∗)=0,进而
∇
f
(
x
∗
)
=
0
\nabla f(\mathbf{x}^*)=0
∇f(x∗)=0
这种情况
P
C
s
(
x
∗
−
1
L
∇
f
(
x
∗
)
)
=
P
C
s
(
x
∗
)
=
{
x
∗
}
P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right)=P_{C_s}(\mathbf{x}^*)=\left\{\mathbf{x}^*\right\}
PCs(x∗−L1∇f(x∗))=PCs(x∗)={x∗}
如果
∥
x
∗
∥
=
s
\|\mathbf{x}^*\|=s
∥x∗∥=s,则
∣
x
i
∗
−
1
L
∂
f
∂
x
i
(
x
∗
)
∣
{
=
∣
x
i
∗
∣
,
i
∈
I
1
(
x
∗
)
,
≤
M
s
(
x
∗
)
,
i
∈
I
0
(
x
∗
)
.
\left|x_{i}^{*}-\frac{1}{L} \frac{\partial f}{\partial x_{i}}\left(\mathbf{x}^{*}\right)\right| \begin{cases}=\left|x_{i}^{*}\right|, & i \in I_{1}\left(\mathbf{x}^{*}\right), \\ \leq M_{s}\left(\mathbf{x}^{*}\right), & i \in I_{0}\left(\mathbf{x}^{*}\right) .\end{cases}
∣∣∣∣xi∗−L1∂xi∂f(x∗)∣∣∣∣{=∣xi∗∣,≤Ms(x∗),i∈I1(x∗),i∈I0(x∗).
引理4
假设
f
∈
C
L
f
1
,
1
(
R
n
)
,
L
>
L
f
f\in C_{L_f}^{1,1}(\mathbb{R}^n),L>L_f
f∈CLf1,1(Rn),L>Lf,则对于
∀
x
∈
C
s
,
y
∈
R
n
\forall \mathbf{x}\in C_s,y\in\mathbb{R}^n
∀x∈Cs,y∈Rn,且满足
y
∈
P
C
s
(
x
−
1
L
∇
f
(
x
)
)
\mathrm{y} \in P_{C_{s}}\left(\mathrm{x}-\frac{1}{L} \nabla f(\mathrm{x})\right)
y∈PCs(x−L1∇f(x))
有
f
(
x
)
−
f
(
y
)
≥
L
−
L
f
2
∥
x
−
y
∥
2
f(\mathbf{x})-f(\mathbf{y}) \geq \frac{L-L_{f}}{2}\|\mathbf{x}-\mathbf{y}\|^{2}
f(x)−f(y)≥2L−Lf∥x−y∥2
证明:
因为
y
∈
argmin
z
∈
C
s
∥
z
−
(
x
−
1
L
∇
f
(
x
)
)
∥
2
\mathrm{y} \in \operatorname{argmin}_{\mathrm{z} \in \mathrm{C}_{s}}\left\|\mathrm{z}-\left(\mathrm{x}-\frac{1}{L} \nabla f(\mathrm{x})\right)\right\|^{2}
y∈argminz∈Cs∥∥∥∥z−(x−L1∇f(x))∥∥∥∥2
h
L
(
z
,
x
)
=
f
(
x
)
+
⟨
∇
f
(
x
)
,
z
−
x
⟩
+
L
2
∥
z
−
x
∥
2
=
L
2
∥
z
−
(
x
−
1
L
∇
f
(
x
)
)
∥
2
+
f
(
x
)
−
1
2
L
∥
∇
f
(
x
)
∥
2
⏟
constant w.r.t.
z
,
\begin{aligned} h_{L}(\mathbf{z}, \mathbf{x}) &=f(\mathbf{x})+\langle\nabla f(\mathbf{x}), \mathbf{z}-\mathbf{x}\rangle+\frac{L}{2}\|\mathbf{z}-\mathbf{x}\|^{2} \\ &=\frac{L}{2}\left\|\mathbf{z}-\left(\mathbf{x}-\frac{1}{L} \nabla f(\mathbf{x})\right)\right\|^{2}+\underbrace{f(\mathbf{x})-\frac{1}{2 L}\|\nabla f(\mathbf{x})\|^{2}}_{\text {constant w.r.t. } z}, \end{aligned}
hL(z,x)=f(x)+⟨∇f(x),z−x⟩+2L∥z−x∥2=2L∥∥∥∥z−(x−L1∇f(x))∥∥∥∥2+constant w.r.t. z
f(x)−2L1∥∇f(x)∥2,
所以
y
∈
argmin
z
∈
C
s
h
L
(
z
,
x
)
\mathrm{y} \in \operatorname{argmin}_{\mathrm{z} \in \mathrm{C}_{s}} h_{L}(\mathrm{z}, \mathrm{x})
y∈argminz∈CshL(z,x)
所以
h
L
(
y
,
x
)
≤
h
L
(
x
,
x
)
=
f
(
x
)
h_{L}(\mathbf{y}, \mathbf{x}) \leq h_{L}(\mathbf{x}, \mathbf{x})=f(\mathbf{x})
hL(y,x)≤hL(x,x)=f(x)
根据下降引理
f
(
x
)
−
f
(
y
)
≥
f
(
x
)
−
h
L
f
(
y
,
x
)
f(\mathbf{x})-f(\mathbf{y}) \geq f(\mathbf{x})-h_{L_{f}}(\mathbf{y}, \mathbf{x})
f(x)−f(y)≥f(x)−hLf(y,x)
根据
h
L
f
(
x
,
y
)
=
h
L
(
x
,
y
)
−
L
−
L
f
2
∥
x
−
y
∥
2
h_{L_{f}}(\mathbf{x}, \mathbf{y})=h_{L}(\mathbf{x}, \mathbf{y})-\frac{L-L_{f}}{2}\|\mathbf{x}-\mathbf{y}\|^{2}
hLf(x,y)=hL(x,y)−2L−Lf∥x−y∥2
有
f
(
x
)
−
f
(
y
)
≥
L
−
L
f
2
∥
x
−
y
∥
2
f(\mathbf{x})-f(\mathbf{y}) \geq \frac{L-L_{f}}{2}\|\mathbf{x}-\mathbf{y}\|^{2}
f(x)−f(y)≥2L−Lf∥x−y∥2
定理8
设
f
∈
C
L
f
1
,
1
(
R
n
)
,
L
>
L
f
f\in C_{L_f}^{1,1}(\mathbb{R}^n),L>L_f
f∈CLf1,1(Rn),L>Lf
设
x
∗
\mathbf{x}^*
x∗是问题(S)的最优解,则
(i)
x
∗
\mathbf{x}^*
x∗是一个L-稳定点
(ii)
P
C
s
(
x
∗
−
1
L
∇
f
(
x
∗
)
)
P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right)
PCs(x∗−L1∇f(x∗))只有一个元素
证明:
假设
y
∈
P
C
s
(
x
∗
−
1
L
∇
f
(
x
∗
)
)
\mathbf{y}\in P_{\mathrm{C}_{s}}\left(\mathrm{x}^{*}-\frac{1}{L} \nabla f\left(\mathrm{x}^{*}\right)\right)
y∈PCs(x∗−L1∇f(x∗))
且
x
∗
≠
y
\mathbf{x}^*\neq \mathbf{y}
x∗=y
根据引理3
f
(
x
∗
)
−
f
(
y
)
≥
L
−
L
f
2
∥
x
∗
−
y
∥
2
f\left(\mathbf{x}^{*}\right)-f(\mathbf{y}) \geq \frac{L-L_{f}}{2}\left\|\mathbf{x}^{*}-\mathbf{y}\right\|^{2}
f(x∗)−f(y)≥2L−Lf∥x∗−y∥2
与
x
∗
\mathbf{x}^*
x∗是最优解矛盾
IHT方法
输入
L
>
L
f
L>L_f
L>Lf
选择起点
x
0
∈
C
s
\mathbf{x}_0\in C_s
x0∈Cs
迭代
x
k
+
1
∈
P
C
s
(
x
k
−
1
L
∇
f
(
x
k
)
)
,
k
=
0
,
1
,
⋯
\mathbf{x}^{k+1}\in P_{C_s}(\mathbf{x}^k-\frac{1}{L}\nabla f(\mathbf{x}^k)),\quad k=0,1,\cdots
xk+1∈PCs(xk−L1∇f(xk)),k=0,1,⋯
引理5
设
f
∈
C
L
f
1
,
1
(
R
n
)
f\in C_{L_f}^{1,1}(\mathbb{R}^n)
f∈CLf1,1(Rn),且有下界
设
{
x
k
}
k
≥
0
\left\{\mathbf{x}^k\right\}_{k\ge 0}
{xk}k≥0是IHT方法用固定步长
1
L
\frac{1}{L}
L1产生的序列,则
(a)
f
(
x
k
)
−
f
(
x
k
+
1
)
≥
L
−
L
f
2
∥
x
k
−
x
k
+
1
∥
2
f\left(\mathrm{x}^{k}\right)-f\left(\mathrm{x}^{k+1}\right) \geq \frac{L-L_{f}}{2}\left\|\mathrm{x}^{k}-\mathrm{x}^{k+1}\right\|^{2}
f(xk)−f(xk+1)≥2L−Lf∥∥xk−xk+1∥∥2
(b)
{
f
(
x
k
)
}
k
≥
0
\left\{f\left(\mathbf{x}^{k}\right)\right\}_{k \geq 0}
{f(xk)}k≥0单调不增
(
c
)
(c)
(c)
∥
x
k
−
x
k
+
1
∥
→
0
\left\|\mathbf{x}^{k}-\mathbf{x}^{k+1}\right\| \rightarrow 0
∥∥xk−xk+1∥∥→0
(d)对于
∀
k
=
0
,
1
,
2
,
⋯
\forall k=0,1,2,\cdots
∀k=0,1,2,⋯,如果
x
k
≠
x
k
+
1
\mathbf{x}^k\neq \mathbf{x}^{k+1}
xk=xk+1,则
f
(
x
k
+
1
)
<
f
(
x
k
)
f\left(\mathbf{x}^{k+1}\right)<f\left(\mathbf{x}^{k}\right)
f(xk+1)<f(xk)
证明:
(a)由引理4显然成立
(b)由(a),显然
(
c
)
(c)
(c)
{
f
(
x
k
)
}
k
≥
0
\left\{f\left(\mathbf{x}^{k}\right)\right\}_{k \geq 0}
{f(xk)}k≥0单调递减有下界,收敛,
所以由(a)成立
(d)显然
定理8
设
{
x
k
}
k
≥
0
\left\{\mathbf{x}^k\right\}_{k\ge 0}
{xk}k≥0是IHT方法用固定步长
1
L
\frac{1}{L}
L1产生的序列
其中
L
>
L
f
L>L_f
L>Lf
则
{
x
k
}
k
≥
0
\left\{\mathbf{x}^k\right\}_{k\ge 0}
{xk}k≥0的任何聚点都是L-稳定点
证明:摸了