数学建模学习记录之二:最优化理论基础(上)

向量范数

R n R^n Rn上的向量范数为从 R n R^n Rn R R R的函数,满足如下性质:
1. f ( x ) ≥ 0 f(x)\geq0 f(x)0 x x x R n ( f ( x ) = 0 当 且 仅 当 x = 0 ) R^n(f(x)=0当且仅当x=0) Rnf(x)=0x=0
2. f ( x + y ) ≤ f ( x ) + f ( y ) , x , y ∈ R n f(x+y)\leq f(x)+f(y),x,y∈R^n f(x+y)f(x)+f(y)x,yRn
3. f ( α x ) = ∣ α ∣ f ( x ) f(\alpha x)=|\alpha|f(x) f(αx)=αf(x), α ∈ R , x ∈ R \alpha∈R,x∈ R αRxR

用双线来表示此类函数: f ( x ) = ∣ ∣ x ∣ ∣ f(x)=||x|| f(x)=x,双线下的下标用来区分不同的范数。
向量范数满足这样的条件
∣ ∣ x ∣ ∣ ≥ 0 ||x|| \geq 0 x0 x ∈ R n x ∈ R^n xRn
∣ ∣ x + y ∣ ∣ ≤ ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣ ||x+y|| \leq ||x|| + ||y|| x+yx+y ∀ x , y ∈ R n {\forall x,y}\in R^n x,yRn
∣ ∣ α x ∣ ∣ = ∣ α ∣ ∣ ∣ x ∣ ∣ ||\alpha x||=|\alpha| ||x|| αx=αx ∀ α ∈ R , ∀ x ∈ R n {\forall \alpha \in R},\forall x \in R^n αR,xRn

· p p p范数

定义为: ∣ ∣ x ∣ ∣ p = ( ∣ x 1 ∣ p + ∣ x 2 ∣ p + . . . + ∣ x n ∣ p ) 1 p , p ≥ 1 ||x||_p=(|x_1|^p+|x_2|^p+...+|x_n|^p)^{\frac{1}{p}},p \geq 1 xp=(x1p+x2p+...+xnp)p1,p1

· 常用范数

最重要的是 1 1 1 2 2 2和无穷级数0
∣ ∣ x ∣ ∣ 1 = ∣ x 1 ∣ + ∣ x 2 ∣ + . . . + ∣ x n ∣ ||x||_1=|x_1|+|x_2|+...+|x_n| x1=x1+x2+...+xn
∣ ∣ x ∣ ∣ 2 = ( ∣ x 1 ∣ 2 + ∣ x 2 ∣ 2 + . . . + ∣ x n ∣ 2 ) 1 2 = ( x T x ) 1 2 ||x||_2=(|x_1|^2+|x_2|^2+...+|x_n|^2)^{\frac{1}{2}}=(x^Tx)^{\frac{1}{2}} x2=(x12+x22+...+xn2)21=(xTx)21
∣ ∣ x ∣ ∣ ∞ = m a x 1 ≤ i ≤ n ∣ x i ∣ ||x||_\infty=max_{1 \leq i \leq n}|x_i| x=max1inxi
在范数 ∣ ∣ . ∣ ∣ ||.|| .意义下的单位向量是指满足于 ∣ ∣ x ∣ ∣ = 1 ||x||=1 x=1的向量 x x x

· 向量范数性质

H o l d e r 不 等 式 : Holder不等式: Holder
∣ x T y ∣ ≤ ∣ ∣ x ∣ ∣ p ∣ ∣ y ∣ ∣ q , 1 p + 1 q = 1 |x^Ty| \leq ||x||_p||y||_q,\frac{1}{p}+\frac{1}{q}=1 xTyxpyq,p1+q1=1
特殊形式 p = q = 2 p=q=2 p=q=2 C a u c h − S c h w a r t z 不 等 式 : Cauch-Schwartz不等式: CauchSchwartz:
∣ x T y ∣ ≤ ∣ ∣ x ∣ ∣ 2 ∣ ∣ y ∣ ∣ 2 |x^Ty| \leq ||x||_2||y||_2 xTyx2y2

说明:
对于任意 λ \lambda λ有: ( x − λ y ) T ( x − λ y ) ≥ 0 (x-\lambda y)^T(x-\lambda y) \geq 0 (xλy)T(xλy)0
x T x − 2 λ x T y + λ 2 y T y ≥ 0 x^Tx-2\lambda x^Ty+\lambda ^2y^Ty \geq 0 xTx2λxTy+λ2yTy0
显然 λ \lambda λ有解,则 ( − 2 x T y ) 2 − 4 y T y x T x ≤ 0 (-2x^Ty)^2-4y^Tyx^Tx \leq 0 (2xTy)24yTyxTx0
化简,从而得证。

矩阵范数

与向量范数是类似的,这里只介绍一种常用的矩阵范数:
A ∈ P m + n A \in P^{m+n} APm+n P P P为一个数域。
∣ ∣ A ∣ ∣ m 1 = ∑ j = 1 n ∑ i = 1 m ∣ a i j ∣ ||A||_{m_1}=\sum^{n}_{j=1}\sum_{i=1}^m|a_{ij}| Am1=j=1ni=1maij
∣ ∣ A ∣ ∣ m 2 = ∑ j = 1 n ∑ i = 1 m ∣ a i j 2 ∣ 1 2 ||A||_{m_2}=\sum^{n}_{j=1}\sum_{i=1}^m|a_{ij}^2|^{\frac{1}{2}} Am2=j=1ni=1maij221
∣ ∣ A ∣ ∣ m ∞ = m a x i , j { ∣ a i j ∣ } , i ∈ [ 1 , m ] , j ∈ [ 1 , n ] ||A||_{m_{\infty}}=max_{i,j}\{|a_{ij}|\},i \in [1,m],j \in [1,n] Am=maxi,j{aij},i[1,m],j[1,n]
∣ ∣ A ∣ ∣ F = ( ∑ j = 1 n ∑ i = 1 n ∣ a i j ∣ 2 ) 1 2 ||A||_F=(\sum_{j=1}^n\sum_{i=1}^n|a_{ij}|^2)^{\frac{1}{2}} AF=(j=1ni=1naij2)21 F 范 数 F范数 F

n n n元函数的可微性与梯度

多元函数 f ( x ) = f ( x 1 , x 2 , . . . , x n ) f(x)=f(x_1,x_2,...,x_n) f(x)=f(x1,x2,...,xn):
f : D ∈ R n → R 1 f:D \in R^n \rightarrow R^1 f:DRnR1表示 f f f是定义在 n n n维空间子集 D D D上的 n n n元实值函数。
x = ( x 1 , x 2 , . . . , x n ) T , x 0 = ( x 1 0 , x 2 0 , . . . , x n 0 ) T x=(x_1,x_2,...,x_n)^T,x_0=(x_1^0,x_2^0,...,x_n^0)^T x=(x1,x2,...,xn)T,x0=(x10,x20,...,xn0)T

· 多元函数的定义

f : D ∈ R n → R 1 f:D \in R^n \rightarrow R^1 fDRnR1,且 x 0 ∈ D x_0 \in D x0D,若存在 n n n维向量 L L L,对于任意 n n n维向量 P P P,都有:

lim ⁡ ∣ ∣ P ∣ ∣ → 0 f ( x 0 + P ) − f ( x 0 ) − L T P ∣ ∣ P ∣ ∣ = 0 \lim_{||P|| \to 0 }\frac{f(x_0+P)-f(x_0)-L^TP}{||P||}=0 P0limPf(x0+P)f(x0)LTP=0
则称 f ( x ) f(x) f(x) x 0 x_0 x0处可微。
f ( x 0 + P ) − f ( x 0 ) − L T P ∣ ∣ P ∣ ∣ = α \frac{f(x_0+P)-f(x_0)-L^TP}{||P||}=\alpha Pf(x0+P)f(x0)LTP=α,则:
f ( x 0 + P ) − f ( x 0 ) = L T P + α ∣ ∣ P ∣ ∣ = L T P + o ( ∣ ∣ P ∣ ∣ ) f(x_0+P)-f(x_0)=L^TP+\alpha||P||=L^TP+o(||P||) f(x0+P)f(x0)=LTP+αP=LTP+o(P)

· 定理一

f ( x ) f(x) f(x) x 0 x_0 x0处可微,则 f ( x ) f(x) f(x) x 0 x_0 x0关于各变量的一阶偏导数存在,且定义中的
L = ( ∂ f ( x ) ∂ x 1 , ∂ f ( x ) ∂ x 2 , . . . , ∂ f ( x ) ∂ x n ) T ∣ x = x 0 L=(\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},...,\frac{\partial f(x)}{\partial x_n})^T|_{x=x_0} L=(x1f(x),x2f(x),...,xnf(x))Tx=x0

证明:
L = ( l 1 . l 2 , . . . , l n ) T L=(l_1.l_2,...,l_n)^T L=(l1.l2,...,ln)T
依次取 P = p i e i ( i = 1 , 2 , . . . , n ) P=p_ie^i(i=1,2,...,n) P=piei(i=1,2,...,n) e i e^i ei为单位向量】
可推得:
lim ⁡ p i → 0 f ( x 0 + p i e i ) − f ( x 0 ) p i = l i \lim_{p_i \to 0}\frac{f(x_0+p_ie^i)-f(x_0)}{p_i}=l_i pi0limpif(x0+piei)f(x0)=li

全微分

D D D R 2 R^2 R2的一个开集, P ( x , y ) ∈ D P(x,y) \in D P(x,y)D, z = f ( x , y ) z =f(x,y) z=f(x,y)是定义在 D D D以内的函数。 Q ( x + Δ x , y + Δ y ) ∈ D Q(x+\Delta x,y+\Delta y) \in D Q(x+Δx,y+Δy)D,则称这两点的函数值之差:
f ( x + Δ x , y + Δ y ) − f ( x , y ) f(x+\Delta x,y+\Delta y)-f(x,y) f(x+Δx,y+Δy)f(x,y)为函数在点 P P P对应于自变量增加 x x x y y y的全增量。
记为:
Δ z = f ( x + Δ x , y + Δ y ) − f ( x , y ) \Delta z=f(x+ \Delta x,y+\Delta y)-f(x,y) Δz=f(x+Δx,y+Δy)f(x,y)

·定义

如果函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 ( x , y ) (x,y) (x,y)的全增量 Δ z = f ( x + Δ x , y + Δ y ) − f ( x , y ) \Delta z=f(x+\Delta x,y+\Delta y)-f(x,y) Δz=f(x+Δx,y+Δy)f(x,y)可以表示 Δ z = A Δ x + B Δ y + o ( ρ ) \Delta z=A\Delta x+B\Delta y+o(\rho) Δz=AΔx+BΔy+o(ρ)。其中 A A A, B B B不依赖于 Δ x \Delta x Δx, Δ y \Delta y Δy而仅与 x , y x,y x,y有关, ρ = ( Δ x ) 2 + ( Δ y ) 2 \rho =\sqrt{(\Delta x)^2+(\Delta y)^2} ρ=(Δx)2+(Δy)2 ,则称函数在这点可微, Δ z \Delta z Δz的线性主部:
A Δ x + B Δ y A\Delta x+B\Delta y AΔx+BΔy称为函数 z z z在点 ( x , y ) (x,y) (x,y)的全微分,记为 d z dz dz,即 d z = A Δ x + B Δ y dz=A\Delta x+B\Delta y dz=AΔx+BΔy

·定理

如果函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 ( x , y ) (x,y) (x,y)可微分,则该函数在点 ( x , y ) (x,y) (x,y)的偏导数 d z = ∂ z ∂ x Δ x + ∂ z ∂ y Δ y = ∂ z ∂ x d x + ∂ z ∂ y d y dz=\frac{\partial z}{\partial x}\Delta x+\frac{\partial z}{\partial y}\Delta y=\frac{\partial z}{\partial x}dx+\frac{\partial z}{\partial y}dy dz=xzΔx+yzΔy=xzdx+yzdy

方向导数

·定义

P ∈ R n P \in R^n PRn,则可微函数 f ( x ) f(x) f(x) x x x点沿方向 P P P的方向导数定义为:
∂ f ( x ) ∂ P = lim ⁡ a → 0 + f ( x + a P ) − f ( x ) a ∣ ∣ P ∣ ∣ \frac{\partial f(x)}{\partial P}=\lim_{a \to 0^+}\frac{f(x+aP)-f(x)}{a||P||} Pf(x)=a0+limaPf(x+aP)f(x) = lim ⁡ a → 0 + ∇ f ( x ) T ( a P ) + o ( ∣ ∣ a P ∣ ∣ ) a ∣ ∣ P ∣ ∣ =\lim_{a \to 0^+}\frac{\nabla f(x)^T(aP)+o(||aP||)}{a||P||} =a0+limaPf(x)T(aP)+o(aP) = lim ⁡ a → 0 + [ ∇ f ( x ) T P ∣ ∣ P ∣ ∣ + o ( ∣ ∣ a P ∣ ∣ ) ∣ ∣ a P ∣ ∣ ] =\lim_{a \to 0^+}[\nabla f(x)^T\frac{P}{||P||}+\frac{o(||aP||)}{||aP||}] =a0+lim[f(x)TPP+aPo(aP)] = ∇ f ( x ) T P ∣ ∣ P ∣ ∣ =\nabla f(x)^T\frac{P}{||P||} =f(x)TPP = ∣ ∣ ∇ f ( x ) ∣ ∣ ∗ ∣ ∣ P ∣ ∣ c o s ( θ ) ∣ ∣ P ∣ ∣ =\frac{||\nabla f(x)||*||P||cos(\theta)}{||P||} =Pf(x)Pcos(θ) = ∣ ∣ ∇ f ( x ) ∣ ∣ c o s ( θ ) =||\nabla f(x)||cos(\theta) =f(x)cos(θ)
∣ ∣ P ∣ ∣ = 1 ||P||=1 P=1,则可微函数 f ( x ) f(x) f(x) x x x点沿方向 P P P的方向导数定义为:
∂ f ( x ) ∂ P = lim ⁡ a → 0 + f ( x + a P ) − f ( x ) a = ∇ f ( x ) T P = ∣ ∣ ∇ f ( x ) ∣ ∣ c o s ( ∇ f ( x ) , P ) \frac{\partial f(x)}{\partial P}=\lim_{a \to 0^+}\frac{f(x+aP)-f(x)}{a}=\nabla f(x)^TP=||\nabla f(x)||cos(\nabla f(x),P) Pf(x)=a0+limaf(x+aP)f(x)=f(x)TP=f(x)cos(f(x),P)

·二元函数为例

函数的增量 f ( x + Δ x , y + Δ y ) − f ( x , y ) f(x+\Delta x,y+\Delta y)-f(x,y) f(x+Δx,y+Δy)f(x,y) P P ′ PP' PP两点间的距 ρ = ( Δ x ) 2 + ( Δ y ) 2 ρ=\sqrt{(\Delta x)^2+(\Delta y)^2} ρ=(Δx)2+(Δy)2 之比值,当 P ′ P' P沿着 l l l趋与 P P P时,如果此比值的极限存在,则称这极限为函数在点 P P P沿方向 l l l的方向导数。
记为: ∂ f ∂ l ∣ P = lim ⁡ ρ → 0 f ( x + Δ x , y + Δ y ) − f ( x , y ) ρ \frac{\partial f}{\partial l}|_P=\lim_{\rho \to 0}\frac{f(x+\Delta x,y+\Delta y)-f(x,y)}{\rho} lfP=ρ0limρf(x+Δx,y+Δy)f(x,y)

·定理

如果函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 P ( x , y ) P(x,y) P(x,y)是可微分的,那么函数在该点沿任意方向 l l l的方向导数都存在,且有 ∂ f ∂ l = ∂ f ∂ x c o s α + ∂ f ∂ y c o s β \frac{\partial f}{\partial l}=\frac{\partial f}{\partial x}cos \alpha+\frac{\partial f}{\partial y}cos \beta lf=xfcosα+yfcosβ c o s α cos \alpha cosα c o s β cos \beta cosβ为方向余弦。
→ \to 证明
由于函数可微,则增量可表示为:
f ( x + Δ x , y + Δ y ) − f ( x , y ) = ∂ f ∂ x Δ x + ∂ f ∂ y Δ y + o ( ρ ) f(x+\Delta x,y+\Delta y)-f(x,y)=\frac{\partial f}{\partial x}\Delta x+\frac{\partial f}{\partial y}\Delta y+o(\rho) f(x+Δx,y+Δy)f(x,y)=xfΔx+yfΔy+o(ρ)
两边同除以 ρ \rho ρ,得到:
f ( x + Δ x , y + Δ y ) − f ( x , y ) ρ = ∂ f ∂ x ∗ Δ x ρ + ∂ f ∂ y ∗ Δ y ρ + o ( ρ ) ρ \frac{f(x+\Delta x,y+\Delta y)-f(x,y)}{\rho}=\frac{\partial f}{\partial x}*\frac{\Delta x}{\rho}+\frac{\partial f}{\partial y}*\frac{\Delta y}{\rho}+\frac{o(\rho)}{\rho} ρf(x+Δx,y+Δy)f(x,y)=xfρΔx+yfρΔy+ρo(ρ)
故有方向导数
∂ f ∂ l = lim ⁡ ρ → 0 f ( x + Δ x , y + Δ y ) − f ( x , y ) ρ \frac{\partial f}{\partial l}=\lim_{\rho \to 0}\frac{f(x+\Delta x,y+\Delta y)-f(x,y)}{\rho} lf=ρ0limρf(x+Δx,y+Δy)f(x,y)
= ∂ f ∂ x c o s α + ∂ f ∂ y c o s β =\frac{\partial f}{\partial x}cos \alpha+\frac{\partial f}{\partial y}cos \beta =xfcosα+yfcosβ
注意可以推广到三维。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值