抄书——最优化的理论与方法(5)——数学基础(函数和微分)

以下内容主要抄自抄袁亚湘的《最优化理论与方法》的 1.2.5 函数和微分


1.2.5 函数和微分

连续函数 f : R n → R f:R^n\to R f:RnR 称为在 x ∈ R n x\in R^n xRn 连续可微,如果 ( ∂ f ∂ x i ) ( x ) \left( \frac{\partial f}{\partial x_i}\right)(x) (xif)(x) 存在且连续, i = 1 , 2 , ⋯   , n i=1,2,\cdots,n i=1,2,,n f f f x x x 处的梯度定义为:
∇ f ( x ) = [ ∂ f ∂ x 1 ( x ) , ⋯   , ∂ f ∂ x n ( x ) ] T \nabla f(x)=\left[\frac{\partial f}{\partial x_1}(x),\cdots, \frac{\partial f}{\partial x_n}(x)\right]^T f(x)=[x1f(x),,xnf(x)]T
如果 f f f 在开集 D ⊂ R n D\subset R^n DRn 中的每一点连续可微,则称 f f f D D D 中连续可微,记作 f ∈ C 1 ( D ) f\in C^1(D) fC1(D)
连续可微函数 f : R n → R f:R^n\to R f:RnR 称为在 x x x 二次连续可微,如果 ∂ 2 f ∂ x i ∂ x j ( x ) \frac{\partial^2f}{\partial x_i \partial x_j}(x) xixj2f(x) 存在且连续, 1 ≤ i , j ≤ n 1\le i, j\le n 1i,jn f f f x x x 处的 Hesse 矩阵定义为 n × n n\times n n×n 矩阵,其 i , j i,j i,j 元素为:
[ ∇ 2 f ( x ) ] i j = ∂ 2 f ( x ) ∂ x i ∂ x j , 1 ≤ i , j ≤ n \left[\nabla^2f(x) \right]_{ij}=\frac{\partial^2f(x)}{\partial x_i \partial x_j},\quad 1\le i,j\le n [2f(x)]ij=xixj2f(x),1i,jn
如果 f f f 在开集 D ⊂ R n D\subset R^n DRn 中的每一点二次连续可微,则称 f f f D ⊂ R n D\subset R^n DRn 中二次连续可微,记作 f ∈ C 2 ( D ) f\in C^2(D) fC2(D)
f : R n → R f:R^n\to R f:RnR 在开集 D ⊂ R n D\subset R^n DRn 上连续可微,对于 x ∈ R n , d ∈ R n x\in R^n,d\in R^n xRn,dRn f f f x x x 点关于 d d d方向导数定义为:
∂ f ∂ d ( x ) = lim ⁡ θ → 0 f ( x + θ d ) − f ( x ) θ ( 1.2.66 ) \frac{\partial f}{\partial d}(x)=\lim_{\theta\to 0} \frac{f(x+\theta d)-f(x)}{\theta}\qquad(1.2.66) df(x)=θ0limθf(x+θd)f(x)(1.2.66)
该方向导数等于 ∇ f ( x ) T d \nabla f(x)^Td f(x)Td,其中, ∇ f ( x ) \nabla f(x) f(x) 表示 f f f x x x 的梯度,它是 f f f 的导数 f ′ ( x ) f'(x) f(x) 的转置,是 n × 1 n \times 1 n×1 向量。
对任何 x , x + d ∈ D x,x+d\in D x,x+dD,或 x , y ∈ D x,y\in D x,yD,若 f : R n → R f:R^n\to R f:RnR 在开凸集 D D D 上连续可微,则有:
f ( x + d ) = f ( x ) + ∫ 0 1 ∇ f ( x + t d ) T d ⋅ d t   = f ( x ) + ∫ x x + d ∇ f ( ξ ) d ξ ( 1.2.67 ) f(x+d)=f(x)+\int^1_0 \nabla f(x+td)^Td\cdot dt\\ \text{ }\\ =f(x)+\int_x^{x+d}\nabla f(\xi)d\xi \qquad(1.2.67) f(x+d)=f(x)+01f(x+td)Tddt =f(x)+xx+df(ξ)dξ(1.2.67)
因而也有
f ( x + d ) = f ( x ) + ∇ f ( ξ ) T d , ξ ∈ ( x , x + d ) ( 1.2.68 a ) f(x+d)=f(x)+\nabla f(\xi)^Td,\quad \xi\in(x,x+d) \qquad(1.2.68a) f(x+d)=f(x)+f(ξ)Td,ξ(x,x+d)(1.2.68a)

f ( y ) = f ( x ) + ∇ f ( x + t ( y − x ) ) T ( y − x ) , t ∈ ( 0 , 1 ) ( 1.2.68 b ) f(y)=f(x)+\nabla f(x+t(y-x))^T(y-x), \quad t\in (0,1) \qquad(1.2.68b) f(y)=f(x)+f(x+t(yx))T(yx),t(0,1)(1.2.68b)

f ( y ) = f ( x ) + ∇ f ( x ) T ( y − x ) + o ( ∥ y − x ∥ ) , t ∈ ( 0 , 1 ) ( 1.2.68 c ) f(y)=f(x)+\nabla f(x)^T(y-x)+o(\Vert y-x \Vert), \quad t\in (0,1) \qquad(1.2.68c) f(y)=f(x)+f(x)T(yx)+o(yx),t(0,1)(1.2.68c)


这是多维 R n R^n Rn 空间中可微函数的中值定理。


f : R n → R f:R^n\to R f:RnR 在开集 D ⊂ R n D\subset R^n DRn 上二次连续可微,对于 x ∈ R n , d ∈ R n x\in R^n, d\in R^n xRn,dRn f f f x x x 关于方向 d d d 的二阶方向导数定义为:
∂ 2 f ∂ d 2 ( x ) = lim ⁡ θ → 0 ∂ f ∂ d ( x + θ d ) − ∂ f ∂ d ( x ) θ ( 1.2.69 ) \frac{\partial^2f}{\partial d^2}(x)=\lim_{\theta \to 0}\frac{\frac{\partial f}{\partial d}(x+\theta d)-\frac{\partial f}{\partial d}(x)}{\theta} \qquad(1.2.69) d22f(x)=θ0limθdf(x+θd)df(x)(1.2.69)
上述定义的二阶方向导数等于 d T ∇ 2 f ( x ) d d^T\nabla^2f(x)d dT2f(x)d,其中 ∇ 2 f ( x ) \nabla^2f(x) 2f(x) 表示 f f f x x x 的 Hesse 矩阵。对于任何 x , x + d ∈ D x,x+d\in D x,x+dD,存在 ξ ∈ ( x , x + d ) \xi \in (x,x+d) ξ(x,x+d),使得:
f ( x + d ) = f ( x ) + ∇ f ( x ) T d + 1 2 d T ∇ 2 f ( ξ ) d ( 1.2.70 ) f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(\xi)d\qquad(1.2.70) f(x+d)=f(x)+f(x)Td+21dT2f(ξ)d(1.2.70)

f ( x + d ) = f ( x ) + ∇ f ( x ) T d + 1 2 d T ∇ 2 f ( x ) d + o ( ∥ d ∥ 2 ) ( 1.2.71 ) f(x+d)=f(x)+\nabla f(x)^Td+\frac{1}{2}d^T\nabla^2f(x)d+o(\Vert d\Vert^2)\qquad(1.2.71) f(x+d)=f(x)+f(x)Td+21dT2f(x)d+o(d2)(1.2.71)
由此,我们也有
∣ f ( y ) − f ( x ) ∣ ≤ ∥ y − x ∥ sup ⁡ ξ ∈ L ( x , y ) ∥ f ′ ( ξ ) ∥ ( 1.2.72 )   ∣ f ( y ) − f ( x ) − f ′ ( x 0 ) ( y − x ) ∣ ≤ ∥ y − x ∥ sup ⁡ ξ ∈ L ( x , y ) ∥ f ′ ( ξ ) − f ′ ( x 0 ) ∥ ( 1.2.73 ) \vert f(y)-f(x)\vert\le \Vert y-x\Vert \sup_{\xi \in L(x,y)}\Vert f'(\xi)\Vert\qquad(1.2.72)\\ \text{ } \\ \vert f(y)-f(x)-f'(x_0)(y-x)\vert\le \Vert y-x\Vert \sup_{\xi \in L(x,y)}\Vert f'(\xi)-f'(x_0)\Vert\qquad(1.2.73) f(y)f(x)yxξL(x,y)supf(ξ)(1.2.72) f(y)f(x)f(x0)(yx)yxξL(x,y)supf(ξ)f(x0)(1.2.73)
其中, L ( x , y ) L(x,y) L(x,y) 表示 x x x y y y连接线段 ξ = x + t ( y − x ) , 0 ≤ t ≤ 1 \xi=x+t(y-x),0\le t\le 1 ξ=x+t(yx),0t1.


上述中值定理,为函数的近似提供了方法。


h : R n → R , g : R m → R , f : R n → R m h:R^n \to R,g:R^m \to R,f:R^n \to R^m h:RnR,g:RmR,f:RnRm,并设 f ∈ C 1 ( D ) , g ∈ C 1 ( D ) , h ( x 0 ) = g ( f ( x 0 ) ) f\in C^1(D),g\in C^1(D),h(x_0)=g(f(x_0)) fC1(D),gC1(D),h(x0)=g(f(x0)),则链式法则为:
h ′ ( x 0 ) = g ′ ( f ( x 0 ) ) f ′ ( x 0 ) ( 1.2.74 a ) h'(x_0)=g'(f(x_0))f'(x_0)\qquad(1.2.74a) h(x0)=g(f(x0))f(x0)(1.2.74a)
其中 f ′ ( x 0 ) f'(x_0) f(x0) m × n m\times n m×n 矩阵,即
f ′ ( x 0 ) = [ ∂ f i ( x ) ∂ x j ] m × n f'(x_0)=\left[ \frac{\partial f_i(x)}{\partial x_j} \right]_{m\times n} f(x0)=[xjfi(x)]m×n

h ′ ′ ( x 0 ) = ∇ f ( x 0 ) T ∇ 2 g [ f ( x 0 ) ] ∇ f ( x 0 ) + ∑ i = 1 m ∂ g [ f ( x 0 ) ] ∂ f i [ f i ( x 0 ) ] ′ ′ ( 1.2.74 b ) h''(x_0)=\nabla f(x_0)^T \nabla^2 g[f(x_0)]\nabla f(x_0)+\sum^m_{i=1}\frac{\partial g[f(x_0)]}{\partial f_i}[f_i(x_0)]''\qquad(1.2.74b) h(x0)=f(x0)T2g[f(x0)]f(x0)+i=1mfig[f(x0)][fi(x0)](1.2.74b)


(1.2.74b)式较复杂,不知在实际应用中有没有用到的。


下面给出向量值函数的微分基础(即函数值是一个向量)。
连续函数 F : R n → R m F:R^n\to R^m F:RnRm x ∈ R n x\in R^n xRn 连续可微,如果其每一个分量 f i , ( i = 1 , ⋯   , m ) f_i,(i=1,\cdots,m) fi,(i=1,,m),在 x x x 连续可微。 F F F x x x 的导数 F ′ ( x ) ∈ R m × n F'(x)\in R^{m\times n} F(x)Rm×n 叫做 F F F x x xJacobi 矩阵,它的转置叫 F F F x x x梯度,即:
F ′ ( x ) = J ( x ) = ∇ F ( x ) T F'(x)=J(x)=\nabla F(x)^T F(x)=J(x)=F(x)T
Jacobi 矩阵的第 i,j 元素为:
[ F ′ ( x ) ] i j = [ J ( x ) ] i j = ∂ f i ∂ x j ( x ) , i = 1 , ⋯   , m , j = 1 , ⋯   , n [F'(x)]_{ij}=[J(x)]_{ij}=\frac{\partial f_i}{\partial x_j}(x), \quad i=1,\cdots,m, j=1,\cdots,n [F(x)]ij=[J(x)]ij=xjfi(x),i=1,,m,j=1,,n
F : R n → R m F:R^n\to R^m F:RnRm 在开凸集 D D D 上连续可微,则对于任何 x , x + d ∈ R n x,x+d\in R^n x,x+dRn,有
F ( x + d ) − F ( x ) = ∫ 0 1 J ( x + t d ) d ⋅ d t = ∫ x x + d F ′ ( ξ ) d ξ ( 1.2.75 ) F(x+d)-F(x)=\int_0^1 J(x+td)d\cdot dt = \int_x^{x+d} F'(\xi)d\xi \qquad(1.2.75) F(x+d)F(x)=01J(x+td)ddt=xx+dF(ξ)dξ(1.2.75)


对比式(1.2.67),两者的形式是一样的。


定义 1.2.11
G : R n → R m × n G:R^n\to R^{m\times n} G:RnRm×n x ∈ D ⊂ R n x\in D\subset R^n xDRn 上称为 Lipschitz 连续,如果 ∀ v ∈ D \forall v\in D vD
∥ G ( v ) − G ( x ) ∥ ≤ γ ∥ v − x ∥ , ( 1.2.76 ) \Vert G(v)-G(x)\Vert\le \gamma\Vert v-x\Vert,\qquad(1.2.76) G(v)G(x)γvx,(1.2.76)
其中 γ \gamma γ 称为 Lipschitz 常数。如果 x ∈ D ⊂ R n x\in D\subset R^n xDRn,(1.2.76)成立,则称 G G G D D D 上 Lipschitz 连续,记作 G ∈ L i p γ ( D ) G\in Lip_{\gamma}(D) GLipγ(D)


Lipschitz 连续,常出现,比如在:Wasserstein GAN 中要求,判别器的网络参数满足Lipschitz 连续要求。


定理 1.2.12
F : R n → R m × n F:R^n\to R^{m\times n} F:RnRm×n 在开凸集 D D D 上连续可微, F ′ F' F x ∈ 邻域 D x\in\text{邻域}D x邻域D 中 Lipschitz 连续,则对于任何 x + d ∈ D x+d\in D x+dD,有
∥ F ( x + d ) − F ( x ) − F ′ ( x ) d ∥ ≤ γ 2 ∥ d ∥ 2 ( 1.2.77 ) \Vert F(x+d)-F(x)-F'(x)d\Vert\le\frac{\gamma}{2}\Vert d\Vert^2\qquad(1.2.77) F(x+d)F(x)F(x)d2γd2(1.2.77)
证明:
F ( x + d ) − F ( x ) − F ′ ( x ) d = ∫ 0 1 F ′ ( x + α d ) d ⋅ d α − F ′ ( x ) d   = ∫ 0 1 [ F ′ ( x + α d ) − F ′ ( x ) ] d ⋅ d α F(x+d)-F(x)-F'(x)d=\int_0^1 F'(x+\alpha d)d\cdot d\alpha-F'(x)d\\ \text{ } \\ =\int_0^1[F'(x+\alpha d)-F'(x)]d\cdot d\alpha F(x+d)F(x)F(x)d=01F(x+αd)ddαF(x)d =01[F(x+αd)F(x)]ddα
从而,
∥ F ( x + d ) − F ( x ) − F ′ ( x ) d ∥ ≤ ∫ 0 1 ∥ F ′ ( x + α d ) − F ′ ( x ) ∥ ∥ d ∥ d α   ≤ ∫ 0 1 γ ∥ α d ∥ ∥ d ∥ d α   = γ ∥ d ∥ 2 ∫ 0 1 α d α = γ 2 ∥ d ∥ 2 □ \Vert F(x+d)-F(x)-F'(x)d\Vert\le \int_0^1 \Vert F'(x+\alpha d)-F'(x) \Vert \Vert d\Vert d\alpha \\ \text{ } \\ \le\int_0^1 \gamma\Vert\alpha d\Vert\Vert d\Vert d\alpha \\ \text{ } \\ = \gamma\Vert d\Vert^2\int_0^1 \alpha d\alpha=\frac{\gamma}{2}\Vert d \Vert^2 \qquad\square F(x+d)F(x)F(x)d01F(x+αd)F(x)ddα 01γαdddα =γd201αdα=2γd2
定理(1.2.12)给出了用线性模型 F ( x ) + F ′ ( x ) d F(x)+F'(x)d F(x)+F(x)d 作为 F ( x + d ) F(x+d) F(x+d)近似所产生的误差界。类似于定理 1.2.12,我们可以给出用二次模型作为 f ( x + d ) f(x+d) f(x+d) 的近似所产生的误差界。
定理 1.2.13
f : R n → R f:R^n\to R f:RnR 在开凸集 D ⊂ R n D\subset R^n DRn 上二次连续可微,设 ∇ 2 f ( x ) \nabla^2f(x) 2f(x) x ∈ 邻域 D x\in\text{邻域}D x邻域D 中 Lipschitz 连续,则对于任何 x + d ∈ D x+d\in D x+dD,有
∣ f ( x + d ) − [ f ( x ) + ∇ f ( x ) T d + 1 2 d T ∇ 2 f ( x ) d ] ∣ ≤ γ 2 ∥ d ∥ 3 ( 1.2.78 ) \left \vert f(x+d)-[f(x)+\nabla f(x)^Td+\frac 12d^T\nabla^2f(x)d]\right\vert \le \frac{\gamma}{2}\Vert d\Vert^3\qquad(1.2.78) f(x+d)[f(x)+f(x)Td+21dT2f(x)d]2γd3(1.2.78)


让我们想起一维函数的泰勒展开,这里有Lipschitz 连续 的约束。


作为定理 1.2.12 的推广,可以得到
定理 1.2.14
F : R n → R m F:R^n\to R^m F:RnRm 在开凸集 D D D 上连续可微,则对于任何 x , u , v ∈ D x,u,v\in D x,u,vD,有
∥ F ( u ) − F ( v ) − F ′ ( v ) ( u − v ) ∥ ≤     [ sup ⁡ 0 ≤ t ≤ 1 ∥ F ′ ( v + t ( u − v ) ) − F ′ ( x ) ] ∥ u − v ∥ ( 1.2.79 ) \Vert F(u)-F(v)-F'(v)(u-v)\Vert \le\\ \text{ } \\ \text{ } \\ \left[ \sup_{0\le t\le 1} \Vert F'(v+t(u-v))-F'(x)\right]\Vert u-v\Vert\qquad(1.2.79) F(u)F(v)F(v)(uv)  [0t1supF(v+t(uv))F(x)]uv(1.2.79)
再设 F ′ F' F 满足 Lipschitz 连续,则有:
∥ F ( u ) − F ( v ) − F ′ ( v ) ( u − v ) ∥ ≤ γ σ ( u , v ) ∥ u − v ∥ ( 1.2.80 a )   ∥ F ( u ) − F ( v ) − F ′ ( v ) ( u − v ) ∥ ≤ γ ∥ u − x ∥ + ∥ x − v ∥ 2 ∥ u − v ∥ ( 1.2.80 b ) \Vert F(u)-F(v)-F'(v)(u-v)\Vert \le \gamma\sigma(u,v)\Vert u-v \Vert \qquad(1.2.80a) \\ \text{ } \\ \Vert F(u)-F(v)-F'(v)(u-v)\Vert \le \gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\Vert u-v \Vert \qquad(1.2.80b) F(u)F(v)F(v)(uv)γσ(u,v)uv(1.2.80a) F(u)F(v)F(v)(uv)γ2ux+xvuv(1.2.80b)
其中, σ ( u , v ) = max ⁡ { ∥ u − x ∥ , ∥ v − x ∥ } \sigma(u,v)=\max\{ \Vert u-x\Vert, \Vert v-x\Vert\} σ(u,v)=max{ux,vx}


定理 1.2.15
F , F ′ F,F' F,F 满足定理 1.2.14 的条件,假定 [ F ′ ( x ) ] − 1 [F'(x)]^{-1} [F(x)]1 存在,则存在 ϵ > 0 , β > α > 0 \epsilon \gt 0,\beta\gt\alpha\gt 0 ϵ>0,β>α>0,使得 ∀ u , v ∈ D \forall u,v\in D u,vD,当 max ⁡ { ∥ u − x ∥ , ∥ v − x ∥ } ≤ ϵ \max \{\Vert u-x\Vert,\Vert v-x\Vert\}\le\epsilon max{ux,vx}ϵ 时,有
α ∥ u − v ∥ ≤ ∥ F ( u ) − F ( v ) ∥ ≤ β ∥ u − v ∥ ( 1.2.81 ) \alpha \Vert u-v \Vert \le \Vert F(u)-F(v)\Vert \le \beta\Vert u-v \Vert \qquad(1.2.81) αuvF(u)F(v)βuv(1.2.81)
证明:
利用三角不等式和(1.2.80b)
∥ F ( u ) − F ( v ) ∥ ≤ ∥ F ′ ( x ) ( u − v ) ∥ + ∥ F ( u ) − F ( v ) − F ′ ( v ) ( u − v ) ∥   ≤ [ ∥ F ′ ( x ) ∥ + γ ∥ u − x ∥ + ∥ x − v ∥ 2 ] ∥ u − v ∥   ≤ [ ∥ F ′ ( x ) ∥ + γ ϵ ] ∥ u − v ∥ \Vert F(u)-F(v)\Vert\le \Vert F'(x)(u-v)\Vert+\Vert F(u)-F(v)-F'(v)(u-v)\Vert \\ \text{ } \\ \le\left[ \Vert F'(x)\Vert+\gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\right] \Vert u-v \Vert \\ \text{ } \\ \le \left[ \Vert F'(x)\Vert+\gamma\epsilon \right]\Vert u-v\Vert F(u)F(v)F(x)(uv)+F(u)F(v)F(v)(uv) [F(x)+γ2ux+xv]uv [F(x)+γϵ]uv
β = ∥ F ′ ( x ) ∥ + γ ϵ \beta=\Vert F'(x)\Vert +\gamma\epsilon β=F(x)+γϵ,则有(1.2.81)右边的不等式。
类似的,
∥ F ( u ) − F ( v ) ∥ ≥ ∥ F ′ ( x ) ( u − v ) ∥ − ∥ F ( u ) − F ( v ) − F ′ ( v ) ( u − v ) ∥   ≥ [ 1 / ∥ F ′ ( x ) ∥ − 1 − γ ∥ u − x ∥ + ∥ x − v ∥ 2 ] ∥ u − v ∥   ≥ [ 1 / ∥ F ′ ( x ) ∥ − 1 − γ ϵ ] ∥ u − v ∥ \Vert F(u)-F(v)\Vert\ge \Vert F'(x)(u-v)\Vert-\Vert F(u)-F(v)-F'(v)(u-v)\Vert \\ \text{ } \\ \ge\left[ 1/\Vert F'(x)\Vert^{-1}-\gamma\frac{\Vert u-x \Vert+\Vert x-v\Vert}{2}\right] \Vert u-v \Vert \\ \text{ } \\ \ge \left[ 1/\Vert F'(x)\Vert^{-1}-\gamma\epsilon \right]\Vert u-v\Vert F(u)F(v)F(x)(uv)F(u)F(v)F(v)(uv) [1/F(x)1γ2ux+xv]uv [1/F(x)1γϵ]uv
因此,如果 ϵ &lt; 1 ∥ [ F ′ ( x ) ] − 1 ∥ γ \epsilon\lt\frac{1}{\Vert[F&#x27;(x)]^{-1}\Vert\gamma} ϵ<[F(x)]1γ1,则令
α = 1 ∥ [ F ′ ( x ) ] − 1 ∥ − γ ϵ &gt; 0 \alpha = \frac{1}{\Vert[F&#x27;(x)]^{-1}\Vert}-\gamma\epsilon\gt 0 α=[F(x)]11γϵ>0
便得到(1.2.81)中左边的不等式。
□ \square


在这段叙述中,我们看到向量值函数若满足 Lipschitz连续 约束,则它的变化(梯度变化)将在某一个范围内,于是就将具有许多有用的推导特性。


1.2.6 有限差分导数

F : R n → R m F:R^n\to R^m F:RnRm其 Jacobi 矩阵 J ( x ) J(x) J(x) 的第 ( i , j ) (i,j) (i,j) 个分量可以用有限差分
a i j = f i ( x + h e j ) − f i ( x ) h ( 1.2.82 ) a_{ij}=\frac{f_i(x+he_j)-f_i(x)}{h} \qquad(1.2.82) aij=hfi(x+hej)fi(x)(1.2.82)
近似,其中 f i ( x ) f_i(x) fi(x) 表示 F ( x ) F(x) F(x) 的第 i 个分量, e j e_j ej 表示第 j 个单位向量, h h h 是一个数,表示步长因子。等价地,如果用 A ⋅ j A_{\cdot j} Aj 表示 A A A 的第 j 列,我们有
A ⋅ j = F ( x + h e j ) − F ( x ) h ( 1.2.83 ) A_{\cdot j} = \frac{F(x+he_j)-F(x)}{h} \qquad(1.2.83) Aj=hF(x+hej)F(x)(1.2.83)
定理 1.2.16(一次)
F : R n → R m F:R^n \to R^m F:RnRm 满足定理 1.2.12 的条件,又设采用的范数 ∥ ⋅ ∥ \Vert \cdot \Vert 满足 ∥ e j ∥ = 1 , j = 1 , ⋯ &ThinSpace; , n \Vert e_j \Vert=1,j=1,\cdots,n ej=1,j=1,,n,则
∥ A ⋅ j − J ( x ) ⋅ j ∥ ≤ γ 2 ∣ h ∣ ( 1.2.84 ) \Vert A_{\cdot j} - J(x)_{\cdot j}\Vert \le \frac{\gamma}{2}\vert h\vert\qquad(1.2.84) AjJ(x)j2γh(1.2.84)
如果采用的是 l 1 l_1 l1 范数,则:
∥ A − J ( x ) ∥ 1 ≤ γ 2 ∣ h ∣ ( 1.2.85 ) \Vert A-J(x) \Vert_1 \le \frac{\gamma}{2}\vert h\vert \qquad(1.2.85) AJ(x)12γh(1.2.85)


定理 1.2.16 反映了 Jacobi矩阵 与它的近似之间的误差界。


定理 1.2.17(二次)
F : R n → R m F:R^n \to R^m F:RnRm 满足定理 1.2.13 的条件,又设采用的范数 ∥ ⋅ ∥ \Vert \cdot \Vert 满足 ∥ e i ∥ = 1 , i = 1 , ⋯ &ThinSpace; , n \Vert e_i \Vert=1,i=1,\cdots,n ei=1,i=1,,n,假定 x + h e i , x − h e i ∈ D , i = 1 , ⋯ &ThinSpace; , n x+he_i, x-he_i\in D,i=1,\cdots,n x+hei,xheiD,i=1,,n,并设向量 a ∈ R n a\in R^n aRn,其分量 a i a_i ai 定义为:
a i = f ( x + h e i ) − f ( x − h e i ) 2 h ( 1.2.86 ) a_i=\frac{f(x+he_i)-f(x-he_i)}{2h}\qquad(1.2.86) ai=2hf(x+hei)f(xhei)(1.2.86)

∣ a i − [ ∇ f ( x ) ] i ∣ ≤ γ 6 h 2 ( 1.2.87 ) \vert a_i-[\nabla f(x)]_i\vert \le \frac{\gamma}{6}h^2 \qquad(1.2.87) ai[f(x)]i6γh2(1.2.87)
如果所采用的是 l ∞ l_{\infty} l 范数,则
∥ a − ∇ f ( x ) ∥ ∞ ≤ γ 6 h 2 ( 1.2.88 ) \Vert a-\nabla f(x)\Vert_{\infty} \le \frac{\gamma}{6}h^2 \qquad(1.2.88) af(x)6γh2(1.2.88)

定理 1.2.18
f f f 满足定理 1.2.17 的条件,假定 x , x + h e i , x + h e j , x + h e i + h e j ∈ D , 1 ≤ x , y ≤ n x,x+he_i,x+he_j,x+he_i+he_j\in D,1\le x,y\le n x,x+hei,x+hej,x+hei+hejD,1x,yn。又设 A ∈ R n × n A\in R^{n\times n} ARn×n,其分量 a i j a_{ij} aij 定义为
a i j = f ( x + h e i + h e j ) − f ( x + h e i ) − f ( x + h e j ) + f ( x ) 2 h 2 ( 1.2.90 ) a_ij=\frac{f(x+he_i+he_j)-f(x+he_i)-f(x+he_j)+f(x)}{2h^2}\qquad(1.2.90) aij=2h2f(x+hei+hej)f(x+hei)f(x+hej)+f(x)(1.2.90)
于是
∣ a i j − [ ∇ 2 f ( x ) ] i j ∣ ≤ 1 4 γ h ( 1.2.91 ) \vert a_{ij} - [\nabla^2 f(x)]_{ij}\vert \le \frac14 \gamma h\qquad(1.2.91) aij[2f(x)]ij41γh(1.2.91)
如果所采用的是 l 1 , l ∞ l_1,l_{\infty} l1,l 或 Frobenius范数,则
∥ A − ∇ 2 f ( x ) ∥ ≤ 1 4 γ h n ( 1.2.92 ) \Vert A-\nabla^2f(x)\Vert \le \frac 14 \gamma hn\qquad(1.2.92) A2f(x)41γhn(1.2.92)

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值