以下内容主要抄自抄袁亚湘的《最优化理论与方法》的 1.2.5 函数和微分
1.2.5 函数和微分
连续函数
f
:
R
n
→
R
f:R^n\to R
f:Rn→R 称为在
x
∈
R
n
x\in R^n
x∈Rn 连续可微,如果
(
∂
f
∂
x
i
)
(
x
)
\left( \frac{\partial f}{\partial x_i}\right)(x)
(∂xi∂f)(x) 存在且连续,
i
=
1
,
2
,
⋯
 
,
n
i=1,2,\cdots,n
i=1,2,⋯,n,
f
f
f 在
x
x
x 处的梯度定义为:
∇
f
(
x
)
=
[
∂
f
∂
x
1
(
x
)
,
⋯
 
,
∂
f
∂
x
n
(
x
)
]
T
\nabla f(x)=\left[\frac{\partial f}{\partial x_1}(x),\cdots, \frac{\partial f}{\partial x_n}(x)\right]^T
∇f(x)=[∂x1∂f(x),⋯,∂xn∂f(x)]T
如果
f
f
f 在开集
D
⊂
R
n
D\subset R^n
D⊂Rn 中的每一点连续可微,则称
f
f
f 在
D
D
D 中连续可微,记作
f
∈
C
1
(
D
)
f\in C^1(D)
f∈C1(D)。
连续可微函数
f
:
R
n
→
R
f:R^n\to R
f:Rn→R 称为在
x
x
x 二次连续可微,如果
∂
2
f
∂
x
i
∂
x
j
(
x
)
\frac{\partial^2f}{\partial x_i \partial x_j}(x)
∂xi∂xj∂2f(x) 存在且连续,
1
≤
i
,
j
≤
n
1\le i, j\le n
1≤i,j≤n。
f
f
f 在
x
x
x 处的 Hesse 矩阵定义为
n
×
n
n\times n
n×n 矩阵,其
i
,
j
i,j
i,j 元素为:
[
∇
2
f
(
x
)
]
i
j
=
∂
2
f
(
x
)
∂
x
i
∂
x
j
,
1
≤
i
,
j
≤
n
\left[\nabla^2f(x) \right]_{ij}=\frac{\partial^2f(x)}{\partial x_i \partial x_j},\quad 1\le i,j\le n
[∇2f(x)]ij=∂xi∂xj∂2f(x),1≤i,j≤n
如果
f
f
f 在开集
D
⊂
R
n
D\subset R^n
D⊂Rn 中的每一点二次连续可微,则称
f
f
f 在
D
⊂
R
n
D\subset R^n
D⊂Rn 中二次连续可微,记作
f
∈
C
2
(
D
)
f\in C^2(D)
f∈C2(D)。
设
f
:
R
n
→
R
f:R^n\to R
f:Rn→R 在开集
D
⊂
R
n
D\subset R^n
D⊂Rn 上连续可微,对于
x
∈
R
n
,
d
∈
R
n
x\in R^n,d\in R^n
x∈Rn,d∈Rn,
f
f
f 在
x
x
x 点关于
d
d
d 的方向导数定义为:
∂
f
∂
d
(
x
)
=
lim
θ
→
0
f
(
x
+
θ
d
)
−
f
(
x
)
θ
(
1.2.66
)
\frac{\partial f}{\partial d}(x)=\lim_{\theta\to 0} \frac{f(x+\theta d)-f(x)}{\theta}\qquad(1.2.66)
∂d∂f(x)=θ→0limθf(x+θd)−f(x)(1.2.66)
该方向导数等于
∇
f
(
x
)
T
d
\nabla f(x)^Td
∇f(x)Td,其中,
∇
f
(
x
)
\nabla f(x)
∇f(x) 表示
f
f
f 在
x
x
x 的梯度,它是
f
f
f 的导数
f
′
(
x
)
f'(x)
f′(x) 的转置,是
n
×
1
n \times 1
n×1 向量。
对任何
x
,
x
+
d
∈
D
x,x+d\in D
x,x+d∈D,或
x
,
y
∈
D
x,y\in D
x,y∈D,若
f
:
R
n
→
R
f:R^n\to R
f:Rn→R 在开凸集
D
D
D 上连续可微,则有:
f
(
x
+
d
)
=
f
(
x
)
+
∫
0
1
∇
f
(
x
+
t
d
)
T
d
⋅
d
t
=
f
(
x
)
+
∫
x
x
+
d
∇
f
(
ξ
)
d
ξ
(
1.2.67
)
f(x+d)=f(x)+\int^1_0 \nabla f(x+td)^Td\cdot dt\\ \text{ }\\ =f(x)+\int_x^{x+d}\nabla f(\xi)d\xi \qquad(1.2.67)
f(x+d)=f(x)+∫01∇f(x+td)Td⋅dt =f(x)+∫xx+d∇f(ξ)dξ(1.2.67)
因而也有
f
(
x
+
d
)
=
f
(
x
)
+
∇
f
(
ξ
)
T
d
,
ξ
∈
(
x
,
x
+
d
)
(
1.2.68
a
)
f(x+d)=f(x)+\nabla f(\xi)^Td,\quad \xi\in(x,x+d) \qquad(1.2.68a)
f(x+d)=f(x)+∇f(ξ)Td,ξ∈(x,x+d)(1.2.68a)
或
f
(
y
)
=
f
(
x
)
+
∇
f
(
x
+
t
(
y
−
x
)
)
T
(
y
−
x
)
,
t
∈
(
0
,
1
)
(
1.2.68
b
)
f(y)=f(x)+\nabla f(x+t(y-x))^T(y-x), \quad t\in (0,1) \qquad(1.2.68b)
f(y)=f(x)+∇f(x+t(y−x))T(y−x),t∈(0,1)(1.2.68b)
或
f
(
y
)
=
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
+
o
(
∥
y
−
x
∥
)
,
t
∈
(
0
,
1
)
(
1.2.68
c
)
f(y)=f(x)+\nabla f(x)^T(y-x)+o(\Vert y-x \Vert), \quad t\in (0,1) \qquad(1.2.68c)
f(y)=f(x)+∇f(x)T(y−x)+o(∥y−x∥),t∈(0,1)(1.2.68c)
这是多维 R n R^n Rn 空间中可微函数的中值定理。
设
f
:
R
n
→
R
f:R^n\to R
f:Rn→R 在开集
D
⊂
R
n
D\subset R^n
D⊂Rn 上二次连续可微,对于
x
∈
R
n
,
d
∈
R
n
x\in R^n, d\in R^n
x∈Rn,d∈Rn,
f
f
f 在
x
x
x 关于方向
d
d
d 的二阶方向导数定义为:
∂
2
f
∂
d
2
(
x
)
=
lim
θ
→
0
∂
f
∂
d
(
x
+
θ
d
)
−
∂
f
∂
d
(
x
)
θ
(
1.2.69
)
\frac{\partial^2f}{\partial d^2}(x)=\lim_{\theta \to 0}\frac{\frac{\partial f}{\partial d}(x+\theta d)-\frac{\partial f}{\partial d}(x)}{\theta} \qquad(1.2.69)
∂d2∂2f(x)=θ→0limθ∂d∂f(x+θd)−∂d∂f(x)(1.2.69)
上述定义的二阶方向导数等于
d
T
∇
2
f
(
x
)
d
d^T\nabla^2f(x)d
dT∇2f(x)d,其中
∇
2
f
(
x
)
\nabla^2f(x)
∇2f(x) 表示
f
f
f 在
x
x
x 的 Hesse 矩阵。对于任何
x
,
x
+
d
∈
D
x,x+d\in D
x,x+d∈D,存在
ξ
∈
(
x
,
x
+
d
)
\xi \in (x,x+d)
ξ∈(x,x+d),使得:
f
(
x
+
d
)
=
f
(
x
)
+
∇
f
(
x
)
T
d
+
1
2
d
T
∇
2
f
(
ξ
)
d
(
1.2.70
)
f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(\xi)d\qquad(1.2.70)
f(x+d)=f(x)+∇f(x)Td+21dT∇2f(ξ)d(1.2.70)
或
f
(
x
+
d
)
=
f
(
x
)
+
∇
f
(
x
)
T
d
+
1
2
d
T
∇
2
f
(
x
)
d
+
o
(
∥
d
∥
2
)
(
1.2.71
)
f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(x)d+o(\Vert d\Vert^2)\qquad(1.2.71)
f(x+d)=f(x)+∇f(x)Td+21dT∇2f(x)d+o(∥d∥2)(1.2.71)
由此,我们也有
∣
f
(
y
)
−
f
(
x
)
∣
≤
∥
y
−
x
∥
sup
ξ
∈
L
(
x
,
y
)
∥
f
′
(
ξ
)
∥
(
1.2.72
)
∣
f
(
y
)
−
f
(
x
)
−
f
′
(
x
0
)
(
y
−
x
)
∣
≤
∥
y
−
x
∥
sup
ξ
∈
L
(
x
,
y
)
∥
f
′
(
ξ
)
−
f
′
(
x
0
)
∥
(
1.2.73
)
\vert f(y)-f(x)\vert\le \Vert y-x\Vert \sup_{\xi \in L(x,y)}\Vert f'(\xi)\Vert\qquad(1.2.72)\\ \text{ } \\ \vert f(y)-f(x)-f'(x_0)(y-x)\vert\le \Vert y-x\Vert \sup_{\xi \in L(x,y)}\Vert f'(\xi)-f'(x_0)\Vert\qquad(1.2.73)
∣f(y)−f(x)∣≤∥y−x∥ξ∈L(x,y)sup∥f′(ξ)∥(1.2.72) ∣f(y)−f(x)−f′(x0)(y−x)∣≤∥y−x∥ξ∈L(x,y)sup∥f′(ξ)−f′(x0)∥(1.2.73)
其中,
L
(
x
,
y
)
L(x,y)
L(x,y) 表示
x
x
x 和
y
y
y 的连接线段,
ξ
=
x
+
t
(
y
−
x
)
,
0
≤
t
≤
1
\xi=x+t(y-x),0\le t\le 1
ξ=x+t(y−x),0≤t≤1.
上述中值定理,为函数的近似
提供了方法。
设
h
:
R
n
→
R
,
g
:
R
m
→
R
,
f
:
R
n
→
R
m
h:R^n \to R,g:R^m \to R,f:R^n \to R^m
h:Rn→R,g:Rm→R,f:Rn→Rm,并设
f
∈
C
1
(
D
)
,
g
∈
C
1
(
D
)
,
h
(
x
0
)
=
g
(
f
(
x
0
)
)
f\in C^1(D),g\in C^1(D),h(x_0)=g(f(x_0))
f∈C1(D),g∈C1(D),h(x0)=g(f(x0)),则链式法则为:
h
′
(
x
0
)
=
g
′
(
f
(
x
0
)
)
f
′
(
x
0
)
(
1.2.74
a
)
h'(x_0)=g'(f(x_0))f'(x_0)\qquad(1.2.74a)
h′(x0)=g′(f(x0))f′(x0)(1.2.74a)
其中
f
′
(
x
0
)
f'(x_0)
f′(x0) 是
m
×
n
m\times n
m×n 矩阵,即
f
′
(
x
0
)
=
[
∂
f
i
(
x
)
∂
x
j
]
m
×
n
f'(x_0)=\left[ \frac{\partial f_i(x)}{\partial x_j} \right]_{m\times n}
f′(x0)=[∂xj∂fi(x)]m×n
有
h
′
′
(
x
0
)
=
∇
f
(
x
0
)
T
∇
2
g
[
f
(
x
0
)
]
∇
f
(
x
0
)
+
∑
i
=
1
m
∂
g
[
f
(
x
0
)
]
∂
f
i
[
f
i
(
x
0
)
]
′
′
(
1.2.74
b
)
h''(x_0)=\nabla f(x_0)^T \nabla^2 g[f(x_0)]\nabla f(x_0)+\sum^m_{i=1}\frac{\partial g[f(x_0)]}{\partial f_i}[f_i(x_0)]''\qquad(1.2.74b)
h′′(x0)=∇f(x0)T∇2g[f(x0)]∇f(x0)+i=1∑m∂fi∂g[f(x0)][fi(x0)]′′(1.2.74b)
(1.2.74b)式较复杂,不知在实际应用中有没有用到的。
下面给出向量值函数的微分基础(即函数值是一个向量)。
连续函数
F
:
R
n
→
R
m
F:R^n\to R^m
F:Rn→Rm 在
x
∈
R
n
x\in R^n
x∈Rn 连续可微,如果其每一个分量
f
i
,
(
i
=
1
,
⋯
 
,
m
)
f_i,(i=1,\cdots,m)
fi,(i=1,⋯,m),在
x
x
x 连续可微。
F
F
F 在
x
x
x 的导数
F
′
(
x
)
∈
R
m
×
n
F'(x)\in R^{m\times n}
F′(x)∈Rm×n 叫做
F
F
F 在
x
x
x 的 Jacobi 矩阵
,它的转置叫
F
F
F 在
x
x
x 的梯度,即:
F
′
(
x
)
=
J
(
x
)
=
∇
F
(
x
)
T
F'(x)=J(x)=\nabla F(x)^T
F′(x)=J(x)=∇F(x)T
Jacobi 矩阵的第 i,j 元素为:
[
F
′
(
x
)
]
i
j
=
[
J
(
x
)
]
i
j
=
∂
f
i
∂
x
j
(
x
)
,
i
=
1
,
⋯
 
,
m
,
j
=
1
,
⋯
 
,
n
[F'(x)]_{ij}=[J(x)]_{ij}=\frac{\partial f_i}{\partial x_j}(x), \quad i=1,\cdots,m, j=1,\cdots,n
[F′(x)]ij=[J(x)]ij=∂xj∂fi(x),i=1,⋯,m,j=1,⋯,n
若
F
:
R
n
→
R
m
F:R^n\to R^m
F:Rn→Rm 在开凸集
D
D
D 上连续可微,则对于任何
x
,
x
+
d
∈
R
n
x,x+d\in R^n
x,x+d∈Rn,有
F
(
x
+
d
)
−
F
(
x
)
=
∫
0
1
J
(
x
+
t
d
)
d
⋅
d
t
=
∫
x
x
+
d
F
′
(
ξ
)
d
ξ
(
1.2.75
)
F(x+d)-F(x)=\int_0^1 J(x+td)d\cdot dt = \int_x^{x+d} F'(\xi)d\xi \qquad(1.2.75)
F(x+d)−F(x)=∫01J(x+td)d⋅dt=∫xx+dF′(ξ)dξ(1.2.75)
对比式(1.2.67),两者的形式是一样的。
定义 1.2.11
G
:
R
n
→
R
m
×
n
G:R^n\to R^{m\times n}
G:Rn→Rm×n 在
x
∈
D
⊂
R
n
x\in D\subset R^n
x∈D⊂Rn 上称为 Lipschitz 连续,如果
∀
v
∈
D
\forall v\in D
∀v∈D,
∥
G
(
v
)
−
G
(
x
)
∥
≤
γ
∥
v
−
x
∥
,
(
1.2.76
)
\Vert G(v)-G(x)\Vert\le \gamma\Vert v-x\Vert,\qquad(1.2.76)
∥G(v)−G(x)∥≤γ∥v−x∥,(1.2.76)
其中
γ
\gamma
γ 称为 Lipschitz 常数。如果
x
∈
D
⊂
R
n
x\in D\subset R^n
x∈D⊂Rn,(1.2.76)成立,则称
G
G
G 在
D
D
D 上 Lipschitz 连续,记作
G
∈
L
i
p
γ
(
D
)
G\in Lip_{\gamma}(D)
G∈Lipγ(D)。
Lipschitz 连续,常出现,比如在:Wasserstein GAN 中要求,判别器的网络参数满足Lipschitz 连续要求。
定理 1.2.12
设
F
:
R
n
→
R
m
×
n
F:R^n\to R^{m\times n}
F:Rn→Rm×n 在开凸集
D
D
D 上连续可微,
F
′
F'
F′ 在
x
∈
邻域
D
x\in\text{邻域}D
x∈邻域D 中 Lipschitz 连续,则对于任何
x
+
d
∈
D
x+d\in D
x+d∈D,有
∥
F
(
x
+
d
)
−
F
(
x
)
−
F
′
(
x
)
d
∥
≤
γ
2
∥
d
∥
2
(
1.2.77
)
\Vert F(x+d)-F(x)-F'(x)d\Vert\le\frac{\gamma}{2}\Vert d\Vert^2\qquad(1.2.77)
∥F(x+d)−F(x)−F′(x)d∥≤2γ∥d∥2(1.2.77)
证明:
F
(
x
+
d
)
−
F
(
x
)
−
F
′
(
x
)
d
=
∫
0
1
F
′
(
x
+
α
d
)
d
⋅
d
α
−
F
′
(
x
)
d
=
∫
0
1
[
F
′
(
x
+
α
d
)
−
F
′
(
x
)
]
d
⋅
d
α
F(x+d)-F(x)-F'(x)d=\int_0^1 F'(x+\alpha d)d\cdot d\alpha-F'(x)d\\ \text{ } \\ =\int_0^1[F'(x+\alpha d)-F'(x)]d\cdot d\alpha
F(x+d)−F(x)−F′(x)d=∫01F′(x+αd)d⋅dα−F′(x)d =∫01[F′(x+αd)−F′(x)]d⋅dα
从而,
∥
F
(
x
+
d
)
−
F
(
x
)
−
F
′
(
x
)
d
∥
≤
∫
0
1
∥
F
′
(
x
+
α
d
)
−
F
′
(
x
)
∥
∥
d
∥
d
α
≤
∫
0
1
γ
∥
α
d
∥
∥
d
∥
d
α
=
γ
∥
d
∥
2
∫
0
1
α
d
α
=
γ
2
∥
d
∥
2
□
\Vert F(x+d)-F(x)-F'(x)d\Vert\le \int_0^1 \Vert F'(x+\alpha d)-F'(x) \Vert \Vert d\Vert d\alpha \\ \text{ } \\ \le\int_0^1 \gamma\Vert\alpha d\Vert\Vert d\Vert d\alpha \\ \text{ } \\ = \gamma\Vert d\Vert^2\int_0^1 \alpha d\alpha=\frac{\gamma}{2}\Vert d \Vert^2 \qquad\square
∥F(x+d)−F(x)−F′(x)d∥≤∫01∥F′(x+αd)−F′(x)∥∥d∥dα ≤∫01γ∥αd∥∥d∥dα =γ∥d∥2∫01αdα=2γ∥d∥2□
定理(1.2.12)给出了用线性模型
F
(
x
)
+
F
′
(
x
)
d
F(x)+F'(x)d
F(x)+F′(x)d 作为
F
(
x
+
d
)
F(x+d)
F(x+d) 的近似所产生的误差界。类似于定理 1.2.12,我们可以给出用二次模型作为
f
(
x
+
d
)
f(x+d)
f(x+d) 的近似所产生的误差界。
定理 1.2.13
设
f
:
R
n
→
R
f:R^n\to R
f:Rn→R 在开凸集
D
⊂
R
n
D\subset R^n
D⊂Rn 上二次连续可微,设
∇
2
f
(
x
)
\nabla^2f(x)
∇2f(x) 在
x
∈
邻域
D
x\in\text{邻域}D
x∈邻域D 中 Lipschitz 连续,则对于任何
x
+
d
∈
D
x+d\in D
x+d∈D,有
∣
f
(
x
+
d
)
−
[
f
(
x
)
+
∇
f
(
x
)
T
d
+
1
2
d
T
∇
2
f
(
x
)
d
]
∣
≤
γ
2
∥
d
∥
3
(
1.2.78
)
\left \vert f(x+d)-[f(x)+\nabla f(x)^Td+\frac 12d^T\nabla^2f(x)d]\right\vert \le \frac{\gamma}{2}\Vert d\Vert^3\qquad(1.2.78)
∣∣∣∣f(x+d)−[f(x)+∇f(x)Td+21dT∇2f(x)d]∣∣∣∣≤2γ∥d∥3(1.2.78)
让我们想起一维函数的泰勒展开,这里有Lipschitz 连续
的约束。
作为定理 1.2.12 的推广,可以得到
定理 1.2.14
设
F
:
R
n
→
R
m
F:R^n\to R^m
F:Rn→Rm 在开凸集
D
D
D 上连续可微,则对于任何
x
,
u
,
v
∈
D
x,u,v\in D
x,u,v∈D,有
∥
F
(
u
)
−
F
(
v
)
−
F
′
(
v
)
(
u
−
v
)
∥
≤
[
sup
0
≤
t
≤
1
∥
F
′
(
v
+
t
(
u
−
v
)
)
−
F
′
(
x
)
]
∥
u
−
v
∥
(
1.2.79
)
\Vert F(u)-F(v)-F'(v)(u-v)\Vert \le\\ \text{ } \\ \text{ } \\ \left[ \sup_{0\le t\le 1} \Vert F'(v+t(u-v))-F'(x)\right]\Vert u-v\Vert\qquad(1.2.79)
∥F(u)−F(v)−F′(v)(u−v)∥≤ [0≤t≤1sup∥F′(v+t(u−v))−F′(x)]∥u−v∥(1.2.79)
再设
F
′
F'
F′ 满足 Lipschitz 连续,则有:
∥
F
(
u
)
−
F
(
v
)
−
F
′
(
v
)
(
u
−
v
)
∥
≤
γ
σ
(
u
,
v
)
∥
u
−
v
∥
(
1.2.80
a
)
∥
F
(
u
)
−
F
(
v
)
−
F
′
(
v
)
(
u
−
v
)
∥
≤
γ
∥
u
−
x
∥
+
∥
x
−
v
∥
2
∥
u
−
v
∥
(
1.2.80
b
)
\Vert F(u)-F(v)-F'(v)(u-v)\Vert \le \gamma\sigma(u,v)\Vert u-v \Vert \qquad(1.2.80a) \\ \text{ } \\ \Vert F(u)-F(v)-F'(v)(u-v)\Vert \le \gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\Vert u-v \Vert \qquad(1.2.80b)
∥F(u)−F(v)−F′(v)(u−v)∥≤γσ(u,v)∥u−v∥(1.2.80a) ∥F(u)−F(v)−F′(v)(u−v)∥≤γ2∥u−x∥+∥x−v∥∥u−v∥(1.2.80b)
其中,
σ
(
u
,
v
)
=
max
{
∥
u
−
x
∥
,
∥
v
−
x
∥
}
\sigma(u,v)=\max\{ \Vert u-x\Vert, \Vert v-x\Vert\}
σ(u,v)=max{∥u−x∥,∥v−x∥}
定理 1.2.15
设
F
,
F
′
F,F'
F,F′ 满足定理 1.2.14 的条件,假定
[
F
′
(
x
)
]
−
1
[F'(x)]^{-1}
[F′(x)]−1 存在,则存在
ϵ
>
0
,
β
>
α
>
0
\epsilon \gt 0,\beta\gt\alpha\gt 0
ϵ>0,β>α>0,使得
∀
u
,
v
∈
D
\forall u,v\in D
∀u,v∈D,当
max
{
∥
u
−
x
∥
,
∥
v
−
x
∥
}
≤
ϵ
\max \{\Vert u-x\Vert,\Vert v-x\Vert\}\le\epsilon
max{∥u−x∥,∥v−x∥}≤ϵ 时,有
α
∥
u
−
v
∥
≤
∥
F
(
u
)
−
F
(
v
)
∥
≤
β
∥
u
−
v
∥
(
1.2.81
)
\alpha \Vert u-v \Vert \le \Vert F(u)-F(v)\Vert \le \beta\Vert u-v \Vert \qquad(1.2.81)
α∥u−v∥≤∥F(u)−F(v)∥≤β∥u−v∥(1.2.81)
证明:
利用三角不等式和(1.2.80b)
∥
F
(
u
)
−
F
(
v
)
∥
≤
∥
F
′
(
x
)
(
u
−
v
)
∥
+
∥
F
(
u
)
−
F
(
v
)
−
F
′
(
v
)
(
u
−
v
)
∥
≤
[
∥
F
′
(
x
)
∥
+
γ
∥
u
−
x
∥
+
∥
x
−
v
∥
2
]
∥
u
−
v
∥
≤
[
∥
F
′
(
x
)
∥
+
γ
ϵ
]
∥
u
−
v
∥
\Vert F(u)-F(v)\Vert\le \Vert F'(x)(u-v)\Vert+\Vert F(u)-F(v)-F'(v)(u-v)\Vert \\ \text{ } \\ \le\left[ \Vert F'(x)\Vert+\gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\right] \Vert u-v \Vert \\ \text{ } \\ \le \left[ \Vert F'(x)\Vert+\gamma\epsilon \right]\Vert u-v\Vert
∥F(u)−F(v)∥≤∥F′(x)(u−v)∥+∥F(u)−F(v)−F′(v)(u−v)∥ ≤[∥F′(x)∥+γ2∥u−x∥+∥x−v∥]∥u−v∥ ≤[∥F′(x)∥+γϵ]∥u−v∥
令
β
=
∥
F
′
(
x
)
∥
+
γ
ϵ
\beta=\Vert F'(x)\Vert +\gamma\epsilon
β=∥F′(x)∥+γϵ,则有(1.2.81)右边的不等式。
类似的,
∥
F
(
u
)
−
F
(
v
)
∥
≥
∥
F
′
(
x
)
(
u
−
v
)
∥
−
∥
F
(
u
)
−
F
(
v
)
−
F
′
(
v
)
(
u
−
v
)
∥
≥
[
1
/
∥
F
′
(
x
)
∥
−
1
−
γ
∥
u
−
x
∥
+
∥
x
−
v
∥
2
]
∥
u
−
v
∥
≥
[
1
/
∥
F
′
(
x
)
∥
−
1
−
γ
ϵ
]
∥
u
−
v
∥
\Vert F(u)-F(v)\Vert\ge \Vert F'(x)(u-v)\Vert-\Vert F(u)-F(v)-F'(v)(u-v)\Vert \\ \text{ } \\ \ge\left[ 1/\Vert F'(x)\Vert^{-1}-\gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\right] \Vert u-v \Vert \\ \text{ } \\ \ge \left[ 1/\Vert F'(x)\Vert^{-1}-\gamma\epsilon \right]\Vert u-v\Vert
∥F(u)−F(v)∥≥∥F′(x)(u−v)∥−∥F(u)−F(v)−F′(v)(u−v)∥ ≥[1/∥F′(x)∥−1−γ2∥u−x∥+∥x−v∥]∥u−v∥ ≥[1/∥F′(x)∥−1−γϵ]∥u−v∥
因此,如果
ϵ
<
1
∥
[
F
′
(
x
)
]
−
1
∥
γ
\epsilon\lt\frac{1}{\Vert[F'(x)]^{-1}\Vert\gamma}
ϵ<∥[F′(x)]−1∥γ1,则令
α
=
1
∥
[
F
′
(
x
)
]
−
1
∥
−
γ
ϵ
>
0
\alpha = \frac{1}{\Vert[F'(x)]^{-1}\Vert}-\gamma\epsilon\gt 0
α=∥[F′(x)]−1∥1−γϵ>0
便得到(1.2.81)中左边的不等式。
□
\square
□
在这段叙述中,我们看到向量值函数若满足 Lipschitz连续
约束,则它的变化(梯度变化)将在某一个范围内,于是就将具有许多有用的推导特性。
1.2.6 有限差分导数
设
F
:
R
n
→
R
m
F:R^n\to R^m
F:Rn→Rm,其 Jacobi 矩阵
J
(
x
)
J(x)
J(x) 的第
(
i
,
j
)
(i,j)
(i,j) 个分量可以用有限差分
a
i
j
=
f
i
(
x
+
h
e
j
)
−
f
i
(
x
)
h
(
1.2.82
)
a_{ij}=\frac{f_i(x+he_j)-f_i(x)}{h} \qquad(1.2.82)
aij=hfi(x+hej)−fi(x)(1.2.82)
近似,其中
f
i
(
x
)
f_i(x)
fi(x) 表示
F
(
x
)
F(x)
F(x) 的第 i 个分量,
e
j
e_j
ej 表示第 j 个单位向量,
h
h
h 是一个数,表示步长因子。等价地,如果用
A
⋅
j
A_{\cdot j}
A⋅j 表示
A
A
A 的第 j 列,我们有
A
⋅
j
=
F
(
x
+
h
e
j
)
−
F
(
x
)
h
(
1.2.83
)
A_{\cdot j} = \frac{F(x+he_j)-F(x)}{h} \qquad(1.2.83)
A⋅j=hF(x+hej)−F(x)(1.2.83)
定理 1.2.16(一次)
设
F
:
R
n
→
R
m
F:R^n \to R^m
F:Rn→Rm 满足定理 1.2.12 的条件,又设采用的范数
∥
⋅
∥
\Vert \cdot \Vert
∥⋅∥ 满足
∥
e
j
∥
=
1
,
j
=
1
,
⋯
 
,
n
\Vert e_j \Vert=1,j=1,\cdots,n
∥ej∥=1,j=1,⋯,n,则
∥
A
⋅
j
−
J
(
x
)
⋅
j
∥
≤
γ
2
∣
h
∣
(
1.2.84
)
\Vert A_{\cdot j} - J(x)_{\cdot j}\Vert \le \frac{\gamma}{2}\vert h\vert\qquad(1.2.84)
∥A⋅j−J(x)⋅j∥≤2γ∣h∣(1.2.84)
如果采用的是
l
1
l_1
l1 范数,则:
∥
A
−
J
(
x
)
∥
1
≤
γ
2
∣
h
∣
(
1.2.85
)
\Vert A-J(x) \Vert_1 \le \frac{\gamma}{2}\vert h\vert \qquad(1.2.85)
∥A−J(x)∥1≤2γ∣h∣(1.2.85)
定理 1.2.16 反映了 Jacobi矩阵 与它的近似之间的误差界。
定理 1.2.17(二次)
设
F
:
R
n
→
R
m
F:R^n \to R^m
F:Rn→Rm 满足定理 1.2.13 的条件,又设采用的范数
∥
⋅
∥
\Vert \cdot \Vert
∥⋅∥ 满足
∥
e
i
∥
=
1
,
i
=
1
,
⋯
 
,
n
\Vert e_i \Vert=1,i=1,\cdots,n
∥ei∥=1,i=1,⋯,n,假定
x
+
h
e
i
,
x
−
h
e
i
∈
D
,
i
=
1
,
⋯
 
,
n
x+he_i, x-he_i\in D,i=1,\cdots,n
x+hei,x−hei∈D,i=1,⋯,n,并设向量
a
∈
R
n
a\in R^n
a∈Rn,其分量
a
i
a_i
ai 定义为:
a
i
=
f
(
x
+
h
e
i
)
−
f
(
x
−
h
e
i
)
2
h
(
1.2.86
)
a_i=\frac{f(x+he_i)-f(x-he_i)}{2h}\qquad(1.2.86)
ai=2hf(x+hei)−f(x−hei)(1.2.86)
则
∣
a
i
−
[
∇
f
(
x
)
]
i
∣
≤
γ
6
h
2
(
1.2.87
)
\vert a_i-[\nabla f(x)]_i\vert \le \frac{\gamma}{6}h^2 \qquad(1.2.87)
∣ai−[∇f(x)]i∣≤6γh2(1.2.87)
如果所采用的是
l
∞
l_{\infty}
l∞ 范数,则
∥
a
−
∇
f
(
x
)
∥
∞
≤
γ
6
h
2
(
1.2.88
)
\Vert a-\nabla f(x)\Vert_{\infty} \le \frac{\gamma}{6}h^2 \qquad(1.2.88)
∥a−∇f(x)∥∞≤6γh2(1.2.88)
定理 1.2.18
设
f
f
f 满足定理 1.2.17 的条件,假定
x
,
x
+
h
e
i
,
x
+
h
e
j
,
x
+
h
e
i
+
h
e
j
∈
D
,
1
≤
x
,
y
≤
n
x,x+he_i,x+he_j,x+he_i+he_j\in D,1\le x,y\le n
x,x+hei,x+hej,x+hei+hej∈D,1≤x,y≤n。又设
A
∈
R
n
×
n
A\in R^{n\times n}
A∈Rn×n,其分量
a
i
j
a_{ij}
aij 定义为
a
i
j
=
f
(
x
+
h
e
i
+
h
e
j
)
−
f
(
x
+
h
e
i
)
−
f
(
x
+
h
e
j
)
+
f
(
x
)
2
h
2
(
1.2.90
)
a_ij=\frac{f(x+he_i+he_j)-f(x+he_i)-f(x+he_j)+f(x)}{2h^2}\qquad(1.2.90)
aij=2h2f(x+hei+hej)−f(x+hei)−f(x+hej)+f(x)(1.2.90)
于是
∣
a
i
j
−
[
∇
2
f
(
x
)
]
i
j
∣
≤
1
4
γ
h
(
1.2.91
)
\vert a_{ij} - [\nabla^2 f(x)]_{ij}\vert \le \frac14 \gamma h\qquad(1.2.91)
∣aij−[∇2f(x)]ij∣≤41γh(1.2.91)
如果所采用的是
l
1
,
l
∞
l_1,l_{\infty}
l1,l∞ 或 Frobenius范数,则
∥
A
−
∇
2
f
(
x
)
∥
≤
1
4
γ
h
n
(
1.2.92
)
\Vert A-\nabla^2f(x)\Vert \le \frac 14 \gamma hn\qquad(1.2.92)
∥A−∇2f(x)∥≤41γhn(1.2.92)