微积分:2.3多元微积分


本课程来自 深度之眼,部分截图来自课程视频。
【第二章 微积分】2.3多元微积分
在线LaTeX公式编辑器

任务详解:

这节课主要介绍了偏导数,多元复合函数求导法则,方向导数与梯度,多元函数泰勒公式,多元函数的极值,矩阵的求导等知识点。
掌握目标:
1、了解偏导数的概念,掌握求法
2、掌握复合偏导数的求法
3、掌握方向导数和梯度
4、了解多元函数的泰勒展开,海森矩阵,极值的充要条件
5、掌握常用矩阵的求导

1.偏导数

定义设函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)的某一邻域内有定义,当 y y y固定在 y 0 y_0 y0
x x x x 0 x_0 x0处有增量 Δ x \Delta x Δx时,相应的函数有增量
f ( x 0 + Δ x , y 0 ) − f ( x 0 , y 0 ) f(x_0+\Delta x,y_0)-f(x_0,y_0) f(x0+Δx,y0)f(x0,y0)
如果:
lim ⁡ Δ x → 0 f ( x 0 + Δ x , y 0 ) − f ( x 0 , y 0 ) Δ x (1) \lim_{\Delta x\to 0}\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}\tag{1} Δx0limΔxf(x0+Δx,y0)f(x0,y0)(1)
存在,那么称此极限为函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处对x的偏导数,记作:
∂ z ∂ x ∣ x = x 0 y = y 0 , ∂ f ∂ x ∣ x = x 0 y = y 0 , z x ∣ x = x 0 y = y 0 或 f x ( x 0 , y 0 ) \frac{\partial z}{\partial x}\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}},\frac{\partial f}{\partial x}\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}},z_x\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}}或f_x(x_0,y_0) xzx=x0y=y0,xfx=x0y=y0,zxx=x0y=y0fx(x0,y0)
类似地,函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处对y的偏导数定义为:
lim ⁡ Δ y → 0 f ( x 0 + Δ y , y 0 ) − f ( x 0 , y 0 ) Δ y (2) \lim_{\Delta y\to 0}\frac{f(x_0+\Delta y,y_0)-f(x_0,y_0)}{\Delta y}\tag{2} Δy0limΔyf(x0+Δy,y0)f(x0,y0)(2)
记作:
∂ z ∂ y ∣ x = x 0 y = y 0 , ∂ f ∂ y ∣ x = x 0 y = y 0 , z y ∣ x = x 0 y = y 0 或 f y ( x 0 , y 0 ) \frac{\partial z}{\partial y}\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}},\frac{\partial f}{\partial y}\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}},z_y\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}}或f_y(x_0,y_0) yzx=x0y=y0,yfx=x0y=y0,zyx=x0y=y0fy(x0,y0)
偏导数的概念还可推广到二元以上的函数.例如三元函数 u = f ( x , y , z ) u=f(x,y,z) u=f(x,y,z)在点
( x , y , z ) (x,y,z) (x,y,z)处对x的偏导数定义为:
f x ( x , y , z ) = lim ⁡ Δ x → 0 f ( x + Δ x , y , z ) − f ( x , y , z ) Δ x f_x(x,y,z)=\lim_{\Delta x\to 0}\frac{f(x+\Delta x,y,z)-f(x,y,z)}{\Delta x} fx(x,y,z)=Δx0limΔxf(x+Δx,y,z)f(x,y,z)
同理有:
f y ( x , y , z ) = lim ⁡ Δ y → 0 f ( x , y + Δ y , z ) − f ( x , y , z ) Δ y f_y(x,y,z)=\lim_{\Delta y\to 0}\frac{f(x,y+\Delta y,z)-f(x,y,z)}{\Delta y} fy(x,y,z)=Δy0limΔyf(x,y+Δy,z)f(x,y,z)
f z ( x , y , z ) = lim ⁡ Δ z → 0 f ( x , y , z + Δ z ) − f ( x , y , z ) Δ z f_z(x,y,z)=\lim_{\Delta z\to 0}\frac{f(x,y,z+\Delta z)-f(x,y,z)}{\Delta z} fz(x,y,z)=Δz0limΔzf(x,y,z+Δz)f(x,y,z)

---------------------------------------------------------割你没商量1------------------------------------------------------
例子:求 z = x 2 + 3 x y + y 2 z=x^2+3xy+y^2 z=x2+3xy+y2在点(1,2)处的偏导数。
∂ z ∂ x = 2 x + 3 y \frac{\partial z}{\partial x}=2x+3y xz=2x+3y
∂ z ∂ y = 3 x + 2 y \frac{\partial z}{\partial y}=3x+2y yz=3x+2y
∂ z ∂ x ∣ ( 1 , 2 ) = 5 \frac{\partial z}{\partial x}\bigg |_{(1,2)}=5 xz(1,2)=5
∂ z ∂ y ∣ ( 1 , 2 ) = 5 \frac{\partial z}{\partial y}\bigg |_{(1,2)}=5 yz(1,2)=5
---------------------------------------------------------割你没商量1------------------------------------------------------

二阶偏导数

设函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在区域D内具有偏导数
∂ z ∂ x = f x ( x , y ) , ∂ z ∂ y = f y ( x , y ) \frac{\partial z}{\partial x}=f_x(x,y),\frac{\partial z}{\partial y}=f_y(x,y) xz=fx(x,y),yz=fy(x,y)
于是在D内 f x ( x , y ) f_x(x,y) fx(x,y) f y ( x , y ) f_y(x,y) fy(x,y)都是x,y的函数.如果这两个函数的偏导数也存在,那么称它们是函数 z = f ( x , y ) z=f(x,y) z=f(x,y)的二阶偏导数。按照对变量求导次序的不同有下列四个二阶偏导数:
∂ ∂ x ( ∂ z ∂ x ) = ∂ 2 z ∂ x 2 = f x x ( x , y ) , ∂ ∂ y ( ∂ z ∂ x ) = ∂ 2 z ∂ x ∂ y = f x y ( x , y ) \frac{\partial }{\partial x}\left(\frac{\partial z}{\partial x}\right)=\frac{\partial^2z }{\partial x^2}=f_{xx}(x,y),\frac{\partial }{\partial y}\left(\frac{\partial z}{\partial x}\right)=\frac{\partial^2z }{\partial x\partial y}=f_{xy}(x,y) x(xz)=x22z=fxx(x,y),y(xz)=xy2z=fxy(x,y)
∂ ∂ x ( ∂ z ∂ y ) = ∂ 2 z ∂ y ∂ x = f y x ( x , y ) , ∂ ∂ y ( ∂ z ∂ y ) = ∂ 2 z ∂ y 2 = f y y ( x , y ) \frac{\partial }{\partial x}\left(\frac{\partial z}{\partial y}\right)=\frac{\partial^2z }{\partial y\partial x}=f_{yx}(x,y),\frac{\partial }{\partial y}\left(\frac{\partial z}{\partial y}\right)=\frac{\partial^2z }{\partial y^2}=f_{yy}(x,y) x(yz)=yx2z=fyx(x,y),y(yz)=y22z=fyy(x,y)

2.多元复合函数求导法则

2.1.一元函数与多元函数复合的情形

定理1如果函数 u = φ ( t ) u=\varphi(t) u=φ(t) v = ψ ( t ) v=\psi(t) v=ψ(t)都在点 t t t可导,函数 z = f ( u , v ) z=f(u,v) z=f(u,v)在对应点 ( u , v ) (u,v) (u,v)具有连续偏导数,那么复合函数: z = f [ φ ( t ) , ψ ( t ) ] z=f[\varphi(t),\psi(t)] z=f[φ(t),ψ(t)]在点 t t t可导,且有
d z d t = ∂ z ∂ u ∂ u ∂ t + ∂ z ∂ v ∂ v ∂ t \frac{dz}{dt}=\frac{\partial z}{\partial u}\frac{\partial u}{\partial t}+\frac{\partial z}{\partial v}\frac{\partial v}{\partial t} dtdz=uztu+vztv

2.2.多元函数与多元函数复合的情形

定理2如果函数 u = φ ( x , y ) u=\varphi(x,y) u=φ(x,y) v = ψ ( x , y ) v=\psi(x,y) v=ψ(x,y)都在点 ( x , y ) (x,y) (x,y)具有对x及对y的偏导数,函数 z = f ( u , v ) z=f(u,v) z=f(u,v)在对应点 ( u , v ) (u,v) (u,v)具有连续偏导数,那么复合函数 z = f [ φ ( x , y ) , ψ ( x , y ) ] z=f[\varphi(x,y),\psi(x,y)] z=f[φ(x,y),ψ(x,y)]在点 ( x , y ) (x,y) (x,y)的两个偏导数都存在,且有
∂ z ∂ x = ∂ z ∂ u ∂ u ∂ x + ∂ z ∂ v ∂ v ∂ x \frac{\partial z}{\partial x}=\frac{\partial z}{\partial u}\frac{\partial u}{\partial x}+\frac{\partial z}{\partial v}\frac{\partial v}{\partial x} xz=uzxu+vzxv
∂ z ∂ y = ∂ z ∂ u ∂ u ∂ y + ∂ z ∂ v ∂ v ∂ y \frac{\partial z}{\partial y}=\frac{\partial z}{\partial u}\frac{\partial u}{\partial y}+\frac{\partial z}{\partial v}\frac{\partial v}{\partial y} yz=uzyu+vzyv

3.方向导数与梯度(重要)

方向导数

以二元函数为例:
{ x = x 0 + t c o s α y = y 0 + t c o s β ( t ≥ 0 ) \left\{\begin{matrix}x=x_0+tcos\alpha\\y=y_0+tcos\beta \end{matrix}\right.(t\geq 0) {x=x0+tcosαy=y0+tcosβ(t0)
t从图像上看实际上就是从 P 0 P_0 P0 P P P的距离
在这里插入图片描述
引入方向导数(想要求沿着哪个方向走,x和y的变化最大/快):
∂ f ∂ l ∣ x 0 , y 0 = lim ⁡ t → 0 + f ( x 0 + t c o s α , y 0 + t c o s β ) − f ( x 0 , y 0 ) t (3) \frac{\partial f}{\partial l}\bigg|_{x_0,y_0}=\lim_{t\to0^+}\frac{f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0)}{t}\tag{3} lfx0,y0=t0+limtf(x0+tcosα,y0+tcosβ)f(x0,y0)(3)

定理如果函数 f ( x , y ) f(x,y) f(x,y)在点 P 0 ( x 0 , y 0 ) P_0(x_0,y_0) P0(x0,y0)可微分,那么函数在该点沿任一方向 l l l的方向导数存在,且有
∂ f ∂ l ∣ x 0 , y 0 = f x ( x 0 , y 0 ) c o s α + f y ( x 0 , y 0 ) c o s β (4) \frac{\partial f}{\partial l}\bigg|_{x_0,y_0}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta\tag{4} lfx0,y0=fx(x0,y0)cosα+fy(x0,y0)cosβ(4)
等式(4)可以由(3)推出来,证明如下:
---------------------------------------------------------割你没商量2------------------------------------------------------
( 3 ) = lim ⁡ t → 0 + [ f ( x 0 + t c o s α , y 0 + t c o s β ) − f ( x 0 , y 0 + t c o s β ) t + f ( x 0 , y 0 + t c o s β ) − f ( x 0 , y 0 ) t ] (3)=\lim_{t\to0^+}[\frac{f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0+tcos\beta)}{t}+\frac{f(x_0,y_0+tcos\beta)-f(x_0,y_0)}{t}] (3)=t0+lim[tf(x0+tcosα,y0+tcosβ)f(x0,y0+tcosβ)+tf(x0,y0+tcosβ)f(x0,y0)]
分别看加号两边的两项,先看左边,分子分母同时乘上 c o s α cos\alpha cosα
lim ⁡ t → 0 + f ( x 0 + t c o s α , y 0 + t c o s β ) − f ( x 0 , y 0 + t c o s β ) t c o s α c o s α (5) \lim_{t\to0^+}\frac{f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0+tcos\beta)}{tcos\alpha}cos\alpha\tag{5} t0+limtcosαf(x0+tcosα,y0+tcosβ)f(x0,y0+tcosβ)cosα(5)
t → 0 + t\to0^+ t0+的时候 t c o s α → 0 tcos\alpha\to0 tcosα0,所以可以把 t c o s α tcos\alpha tcosα看做是 Δ x \Delta x Δx,式(5)变成:
lim ⁡ t → 0 + f ( x 0 + Δ x , y 0 + t c o s β ) − f ( x 0 , y 0 + t c o s β ) Δ x c o s α (6) \lim_{t\to0^+}\frac{f(x_0+\Delta x,y_0+tcos\beta)-f(x_0,y_0+tcos\beta)}{\Delta x}cos\alpha\tag{6} t0+limΔxf(x0+Δx,y0+tcosβ)f(x0,y0+tcosβ)cosα(6)
根据最上面偏导数的定义公式(1),把 y 0 + t c o s β y_0+tcos\beta y0+tcosβ看成一个整体,可知(6)就是
f x ( x 0 , y 0 + t c o s β ) c o s α f_x(x_0,y_0+tcos\beta)cos\alpha fx(x0,y0+tcosβ)cosα
由于 t → 0 t\to0 t0
f x ( x 0 , y 0 + t c o s β ) c o s α = f x ( x 0 , y 0 ) c o s α f_x(x_0,y_0+tcos\beta)cos\alpha=f_x(x_0,y_0)cos\alpha fx(x0,y0+tcosβ)cosα=fx(x0,y0)cosα
再看右边,,分子分母同时乘上 c o s β cos\beta cosβ
lim ⁡ t → 0 + f ( x 0 , y 0 + t c o s β ) − f ( x 0 , y 0 ) t c o s β c o s β (7) \lim_{t\to0^+}\frac{f(x_0,y_0+tcos\beta)-f(x_0,y_0)}{tcos\beta}cos\beta\tag{7} t0+limtcosβf(x0,y0+tcosβ)f(x0,y0)cosβ(7)
同样的,把 t c o s β tcos\beta tcosβ看做是 Δ y \Delta y Δy,式(7)变成:
lim ⁡ t → 0 + f ( x 0 , y 0 + Δ y ) − f ( x 0 , y 0 ) Δ y c o s β (8) \lim_{t\to0^+}\frac{f(x_0,y_0+\Delta y)-f(x_0,y_0)}{\Delta y}cos\beta\tag{8} t0+limΔyf(x0,y0+Δy)f(x0,y0)cosβ(8)
根据最上面偏导数的定义公式(2),可知(8)就是:
f y ( x 0 , y 0 ) c o s β f_y(x_0,y_0)cos\beta fy(x0,y0)cosβ
所以(4)=(3),搞定。
---------------------------------------------------------割你没商量2------------------------------------------------------

梯度

与方向导数有关联的一个概念是函数的梯度。在二元函数的情形,设函数 f ( x , y ) f(x,y) f(x,y)在平面区域D内具有一阶连续偏导数,则对于每一点 P 0 ( x 0 , y 0 ) ∈ D P_0(x_0,y_0)\in D P0(x0,y0)D,都可定出一个向量
f x ( x 0 , y 0 ) i + f y ( x 0 , y 0 ) j f_x(x_0,y_0)i+f_y(x_0,y_0)j fx(x0,y0)i+fy(x0,y0)j
这向量称为函数 f ( x , y ) f(x,y) f(x,y)在点 P 0 ( x 0 , y 0 ) P_0(x_0,y_0) P0(x0,y0)的梯度,记作grad f ( x 0 , y 0 ) f(x_0,y_0) f(x0,y0) ▽ f ( x 0 , y 0 ) \triangledown f(x_0,y_0) f(x0,y0),即
g r a d   f ( x 0 , y 0 ) = ▽ f ( x 0 , y 0 ) = f x ( x 0 , y 0 ) i + f y ( x 0 , y 0 ) j grad\space f(x_0,y_0)=\triangledown f(x_0,y_0)=f_x(x_0,y_0)i+f_y(x_0,y_0)j grad f(x0,y0)=f(x0,y0)=fx(x0,y0)i+fy(x0,y0)j
如果函数 f ( x , y ) f(x,y) f(x,y)在点 P 0 ( x 0 , y 0 ) P_0(x_0,y_0) P0(x0,y0)可微分, e l = ( c o s α , c o s β ) e_l=(cos\alpha,cos\beta) el=(cosα,cosβ)是与方向 l l l同向的单位向量,那么
∂ f ∂ l ∣ x 0 , y 0 = f x ( x 0 , y 0 ) c o s α + f y ( x 0 , y 0 ) c o s β (4) \frac{\partial f}{\partial l}\bigg|_{x_0,y_0}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta\tag{4} lfx0,y0=fx(x0,y0)cosα+fy(x0,y0)cosβ(4)
两个向量的点积可以写成两个向量的模长乘以夹角的余弦值。 θ = 0 \theta=0 θ=0的时候变量变化得最快。
= g r a d   f ( x 0 , y 0 ) ⋅ e l = ∣ g r a d   f ( x 0 , y 0 ) ∣ c o s θ =grad\space f(x_0,y_0)\cdot e_l=|grad\space f(x_0,y_0)|cos\theta =grad f(x0,y0)el=grad f(x0,y0)cosθ

4.多元函数泰勒公式

多元函数泰勒公式

在这里插入图片描述
以上是比较晦涩的公式,实际使用中,只要展开的前面两项
f ( x 0 + Δ x , y 0 + Δ y ) = f ( x 0 , y 0 ) + (9) f(x_0+\Delta x,y_0+\Delta y)=f(x_0,y_0)+\tag{9} f(x0+Δx,y0+Δy)=f(x0,y0)+(9)
f x ( x 0 , y 0 ) Δ x + f y ( x 0 , y 0 ) Δ y + (10) f_x(x_0,y_0)\Delta x+f_y(x_0,y_0)\Delta y+\tag{10} fx(x0,y0)Δx+fy(x0,y0)Δy+(10)
f x x ( x 0 , y 0 ) Δ x 2 + 2 f x y ( x 0 , y 0 ) Δ x Δ y + f y y ( x 0 , y 0 ) Δ y 2 (11) f_{xx}(x_0,y_0)\Delta x^2+2f_{xy}(x_0,y_0)\Delta x\Delta y+f_{yy}(x_0,y_0)\Delta y^2\tag{11} fxx(x0,y0)Δx2+2fxy(x0,y0)ΔxΔy+fyy(x0,y0)Δy2(11)
可以看到(9)是0次项,(10)是一次项,(11)是二次项,后面的三次项一般都省略不用。
(10)可以看做是:
[ f x f y ] [ Δ x Δ y ] = ▽ f T [ Δ x Δ y ] \begin{bmatrix}f_x& f_y\end{bmatrix}\begin{bmatrix}\Delta x\\ \Delta y\end{bmatrix}=\triangledown f^T\begin{bmatrix}\Delta x\\ \Delta y\end{bmatrix} [fxfy][ΔxΔy]=fT[ΔxΔy]
(11)可以看做是:
[ Δ x Δ y ] [ f x x f x y f x y f y y ] [ Δ x Δ y ] \begin{bmatrix}\Delta x& \Delta y\end{bmatrix}\begin{bmatrix}f_{xx}&f_{xy}\\f_{xy}&f_{yy}\end{bmatrix}\begin{bmatrix}\Delta x\\ \Delta y\end{bmatrix} [ΔxΔy][fxxfxyfxyfyy][ΔxΔy]
[ f x x f x y f x y f y y ] \begin{bmatrix}f_{xx}&f_{xy}\\f_{xy}&f_{yy}\end{bmatrix} [fxxfxyfxyfyy]称为hessian矩阵。

海森矩阵(二维或高维)

把上面的二元推广到多元,例如,设函数为 f ( x 1 , x 2 , . . . , x n ) f(x_1,x_2,...,x_n) f(x1,x2,...,xn),则它的泰勒展开为:
f ( x 1 + Δ x 1 , x 2 + Δ x 2 , . . . , x n + Δ x n ) = f ( x 1 , x 2 , . . . , x n ) + f(x_1+\Delta x_1,x_2+\Delta x_2,...,x_n+\Delta x_n)=f(x_1,x_2,...,x_n)+ f(x1+Δx1,x2+Δx2,...,xn+Δxn)=f(x1,x2,...,xn)+
[ Δ x 1 Δ x 2 ⋯ Δ x n ] [ f x 1 ( x 1 , x 2 , . . . , x n ) f x 2 ( x 1 , x 2 , . . . , x n ) ⋮ f x n ( x 1 , x 2 , . . . , x n ) ] + \begin{bmatrix}\Delta x_1&\Delta x_2&\cdots&\Delta x_n\end{bmatrix}\begin{bmatrix}f_{x_1}(x_1,x_2,...,x_n)\\ f_{x_2}(x_1,x_2,...,x_n)\\\vdots\\f_{x_n}(x_1,x_2,...,x_n)\end{bmatrix}+ [Δx1Δx2Δxn]fx1(x1,x2,...,xn)fx2(x1,x2,...,xn)fxn(x1,x2,...,xn)+
[ Δ x 1 Δ x 2 ⋯ Δ x n ] [ H e s s i a n   M a t r i x   H ] n × n [ Δ x 1 Δ x 2 ⋮ Δ x n ] \begin{bmatrix}\Delta x_1&\Delta x_2&\cdots&\Delta x_n\end{bmatrix}[Hessian \space Matrix\space H]_{n×n}\begin{bmatrix}\Delta x_1\\\Delta x_2\\\vdots\\\Delta x_n\end{bmatrix} [Δx1Δx2Δxn][Hessian Matrix H]n×nΔx1Δx2Δxn
中间的黑神矩阵的通项为: h i j = ∂ 2 f Δ x i Δ x j h_{ij}=\frac{\partial^2f}{\Delta x_i\Delta x_j} hij=ΔxiΔxj2f
例如矩阵第一行为: f x 1 x 1 , f x 1 x 2 , . . . , x 1 x n f_{x_1x_1},f_{x_1x_2},...,_{x_1x_n} fx1x1,fx1x2,...,x1xn
黑神矩阵是对称矩阵。

5.多元函数的极值

定义设函数 z = f ( x , y ) z=f(x,y) z=f(x,y)的定义域为 D D D P 0 ( x 0 , y 0 ) P_0(x_0,y_0) P0(x0,y0)为D的内点。若存在 P 0 P_0 P0
的某个邻域 U ( P 0 ) ⊂ D U(P_0)\subset D U(P0)D,使得对于该邻域内异于 P 0 P_0 P0的任何点 ( x , y ) (x,y) (x,y),都有
f ( x , y ) < f ( x 0 , y 0 ) f(x,y)<f(x_0,y_0) f(x,y)<f(x0,y0)
则称函数 f ( x , y ) f(x,y) f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)有极大值 f ( x 0 , y 0 ) f(x_0,y_0) f(x0,y0),点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)称为函数 f ( x , y ) f(x,y) f(x,y)的极大值点;
若对于该邻域内异于 P 0 P_0 P0的任何点 ( x , y ) (x,y) (x,y),都有
f ( x , y ) > f ( x 0 , y 0 ) f(x,y)>f(x_0,y_0) f(x,y)>f(x0,y0)
则称函数 f ( x , y ) f(x,y) f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)有极小值 f ( x 0 , y 0 ) f(x_0,y_0) f(x0,y0),点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)称为函数 f ( x , y ) f(x,y) f(x,y)的极小值点.
极大值与极小值统称为极值.使得函数取得极值的点称为极值点.

定理1(必要条件)设函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)具有偏导数,且在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处有极值,则有
f x ( x 0 , y 0 ) = 0 , f y ( x 0 , y 0 ) = 0 f_x(x_0,y_0)=0,f_y(x_0,y_0)=0 fx(x0,y0)=0,fy(x0,y0)=0
定理2(充分条件)设函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 ( x 0 , y 0 ) (x_0,y_0) (x0,y0)的某邻域内连续且有一阶及二阶连续偏导数,又 f x ( x 0 , y 0 ) = 0 , f y ( x 0 , y 0 ) = 0 f_x(x_0,y_0)=0,f_y(x_0,y_0)=0 fx(x0,y0)=0,fy(x0,y0)=0,令
f x x ( x 0 , y 0 ) = A , f x y ( x 0 , y 0 ) = B , f y y ( x 0 , y 0 ) = C f_{xx}(x_0,y_0)=A,f_{xy}(x_0,y_0)=B,f_{yy}(x_0,y_0)=C fxx(x0,y0)=Afxy(x0,y0)=Bfyy(x0,y0)=C
f ( x , y ) f(x,y) f(x,y) ( x 0 , y 0 ) (x_0,y_0) (x0,y0)处是否取得极值的条件如下:
(1) A C − B 2 > 0 AC-B^2>0 ACB2>0时具有极值,且当 A < 0 A<0 A<0时有极大值,当 A > 0 A>0 A>0时有极小值;
(2) A C − B 2 < 0 AC-B^2<0 ACB2<0时没有极值;
(3) A C − B 2 = 0 AC-B^2=0 ACB2=0时可能有极值,也可能没有极值,还需另作讨论.
这里可以看到 [ f x x f x y f x y f y x ] = [ A B B C ] \begin{bmatrix}f_{xx}&f_{xy}\\f_{xy}&f_{yx}\end{bmatrix}=\begin{bmatrix}A&B\\B&C\end{bmatrix} [fxxfxyfxyfyx]=[ABBC]是黑神矩阵。
---------------------------------------------------------割你没商量3------------------------------------------------------
这里吧充分条件进行证明。
假设 ( x , y ) (x,y) (x,y)是领域内的一个点,则在这个点上用泰勒展开得:
f ( x , y ) = f ( x 0 , y 0 ) + ▽ f T ( x , y ) [ x − x 0 y − y 0 ] + 1 2 [ x − x 0 y − y 0 ] [ A B B C ] [ x − x 0 y − y 0 ] (12) f(x,y)=f(x_0,y_0)+\triangledown f^T(x,y)\begin{bmatrix}x-x_0\\ y-y_0\end{bmatrix}+\frac{1}{2}\begin{bmatrix}x-x_0& y-y_0\end{bmatrix}\begin{bmatrix}A&B\\B&C\end{bmatrix}\begin{bmatrix}x-x_0\\ y-y_0\end{bmatrix}\tag{12} f(x,y)=f(x0,y0)+fT(x,y)[xx0yy0]+21[xx0yy0][ABBC][xx0yy0](12)
由于 f x ( x 0 , y 0 ) = 0 , f y ( x 0 , y 0 ) = 0 f_x(x_0,y_0)=0,f_y(x_0,y_0)=0 fx(x0,y0)=0,fy(x0,y0)=0,所以 ▽ f T ( x , y ) [ x − x 0 y − y 0 ] = 0 \triangledown f^T(x,y)\begin{bmatrix}x-x_0\\ y-y_0\end{bmatrix}=0 fT(x,y)[xx0yy0]=0
x − x 0 = Δ x , y − y 0 = Δ y x-x_0=\Delta x,y-y_0=\Delta y xx0=Δx,yy0=Δy,式(12)变成:
= f ( x 0 , y 0 ) + 1 2 [ Δ x Δ y ] [ A B B C ] [ Δ x Δ y ] (13) =f(x_0,y_0)+\frac{1}{2}\begin{bmatrix}\Delta x& \Delta y\end{bmatrix}\begin{bmatrix}A&B\\B&C\end{bmatrix}\begin{bmatrix}\Delta x\\ \Delta y\end{bmatrix}\tag{13} =f(x0,y0)+21[ΔxΔy][ABBC][ΔxΔy](13)
---------------------------------------------------------割你没商量3.1----------------------------------------------------
之前讨论正定矩阵的时候有过结论:
一个矩阵M是正定矩阵,则在他的左右两边乘以向量及向量转置大于等于0: u t M u ≥ 0 u^tMu\geq0 utMu0
一个矩阵M不是正定矩阵,则在他的左右两边乘以向量及向量转置大于等于0: u t M u < 0 u^tMu<0 utMu<0
---------------------------------------------------------割你没商量3.1----------------------------------------------------
从式(13)可知,如果 [ A B B C ] \begin{bmatrix}A&B\\B&C\end{bmatrix} [ABBC]正定, f ( x , y ) = f ( x 0 , y 0 ) + 正 数 f(x,y)=f(x_0,y_0)+正数 f(x,y)=f(x0,y0)+,即 f ( x , y ) > f ( x 0 , y 0 ) f(x,y)>f(x_0,y_0) f(x,y)>f(x0,y0) ( x 0 , y 0 ) (x_0,y_0) (x0,y0)是极小值;
如果 [ A B B C ] \begin{bmatrix}A&B\\B&C\end{bmatrix} [ABBC]负定, f ( x , y ) = f ( x 0 , y 0 ) + 负 数 f(x,y)=f(x_0,y_0)+负数 f(x,y)=f(x0,y0)+,即 f ( x , y ) < f ( x 0 , y 0 ) f(x,y)<f(x_0,y_0) f(x,y)<f(x0,y0) ( x 0 , y 0 ) (x_0,y_0) (x0,y0)是极大值;
---------------------------------------------------------割你没商量3.2----------------------------------------------------
接下来要判断矩阵啥时候正定,根据正定的定理可知,如果一个矩阵正定,那么它的所有特征值要大于0。如果一个矩阵不正定,那么它的所有特征值要小于0。
---------------------------------------------------------割你没商量3.2----------------------------------------------------
上面 [ A B B C ] \begin{bmatrix}A&B\\B&C\end{bmatrix} [ABBC]的特征值行列式为:
∣ A − λ B B C − λ ∣ = ( λ − A ) ( λ − C ) − B 2 \begin{vmatrix}A-\lambda&B\\B&C-\lambda\end{vmatrix}=(\lambda-A)(\lambda-C)-B^2 AλBBCλ=(λA)(λC)B2
= λ 2 − ( A + C ) λ + A C − B 2 = 0 =\lambda^2-(A+C)\lambda+AC-B^2=0 =λ2(A+C)λ+ACB2=0
情况1:正定,即 λ 1 > 0 , λ 2 > 0 → A + C > 0 a n d A C − B 2 > 0 \lambda_1>0,\lambda_2>0\to A+C>0 and AC-B^2>0 λ1>0,λ2>0A+C>0andACB2>0(韦达定理)
情况2:负定,即 λ 1 < 0 , λ 2 < 0 → A + C < 0 a n d A C − B 2 > 0 \lambda_1<0,\lambda_2<0\to A+C<0 and AC-B^2>0 λ1<0,λ2<0A+C<0andACB2>0(韦达定理)
无论是正定还是负定,都会有极值,也就是都满足条件 A C − B 2 > 0 AC-B^2>0 ACB2>0,也就是 A C > B 2 AC>B^2 AC>B2,意味AC同号,
情况一的时候A+C>0 ,此时AC都要为正数,即A>0时, [ A B B C ] \begin{bmatrix}A&B\\B&C\end{bmatrix} [ABBC]正定且有极小值;
情况二的时候A+C<0 ,此时AC都要为负数,即A<0时, [ A B B C ] \begin{bmatrix}A&B\\B&C\end{bmatrix} [ABBC]负定且有极大值。
条件(1)得证。其他两个条件证明省略。
---------------------------------------------------------割你没商量3------------------------------------------------------

6.矩阵的求导

常见性质
1. f ( x ) = A x f(x)=Ax f(x)=Ax,则
∂ f ( x ) ∂ x T = ∂ A x ∂ x T = A \frac{\partial f(x)}{\partial x^T}=\frac{\partial Ax}{\partial x^T}=A xTf(x)=xTAx=A
2. f ( x ) = x T A x f(x)=x^TAx f(x)=xTAx,则
∂ f ( x ) ∂ x = ∂ ( x T A x ) ∂ x T = A x + A T x \frac{\partial f(x)}{\partial x}=\frac{\partial (x^TAx)}{\partial x^T}=Ax+A^Tx xf(x)=xT(xTAx)=Ax+ATx
3. f ( x ) = a T x f(x)=a^Tx f(x)=aTx,则
∂ a T x ∂ x = ∂ x T a ∂ x = a \frac{\partial a^Tx}{\partial x}=\frac{\partial x^Ta}{\partial x}=a xaTx=xxTa=a
4. f ( x ) = x T A y f(x)=x^TAy f(x)=xTAy.则
∂ x a T A y ∂ x = A y \frac{\partial xa^TAy}{\partial x}=Ay xxaTAy=Ay
∂ x a T A y ∂ A = x y T \frac{\partial xa^TAy}{\partial A}=xy^T AxaTAy=xyT
要搞清楚矩阵求导之后变成一个矩阵还是一个值?
在这里插入图片描述
矩阵求导公式大全

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oldmao_2000

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值