文章目录
本课程来自 深度之眼,部分截图来自课程视频。
【第二章 微积分】2.3多元微积分
在线LaTeX公式编辑器
任务详解:
这节课主要介绍了偏导数,多元复合函数求导法则,方向导数与梯度,多元函数泰勒公式,多元函数的极值,矩阵的求导等知识点。
掌握目标:
1、了解偏导数的概念,掌握求法
2、掌握复合偏导数的求法
3、掌握方向导数和梯度
4、了解多元函数的泰勒展开,海森矩阵,极值的充要条件
5、掌握常用矩阵的求导
1.偏导数
定义设函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y)在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)的某一邻域内有定义,当
y
y
y固定在
y
0
y_0
y0
而
x
x
x在
x
0
x_0
x0处有增量
Δ
x
\Delta x
Δx时,相应的函数有增量
f
(
x
0
+
Δ
x
,
y
0
)
−
f
(
x
0
,
y
0
)
f(x_0+\Delta x,y_0)-f(x_0,y_0)
f(x0+Δx,y0)−f(x0,y0)
如果:
lim
Δ
x
→
0
f
(
x
0
+
Δ
x
,
y
0
)
−
f
(
x
0
,
y
0
)
Δ
x
(1)
\lim_{\Delta x\to 0}\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}\tag{1}
Δx→0limΔxf(x0+Δx,y0)−f(x0,y0)(1)
存在,那么称此极限为函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y)在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)处对x的偏导数,记作:
∂
z
∂
x
∣
x
=
x
0
y
=
y
0
,
∂
f
∂
x
∣
x
=
x
0
y
=
y
0
,
z
x
∣
x
=
x
0
y
=
y
0
或
f
x
(
x
0
,
y
0
)
\frac{\partial z}{\partial x}\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}},\frac{\partial f}{\partial x}\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}},z_x\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}}或f_x(x_0,y_0)
∂x∂z∣∣∣∣x=x0y=y0,∂x∂f∣∣∣∣x=x0y=y0,zx∣∣∣∣x=x0y=y0或fx(x0,y0)
类似地,函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y)在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)处对y的偏导数定义为:
lim
Δ
y
→
0
f
(
x
0
+
Δ
y
,
y
0
)
−
f
(
x
0
,
y
0
)
Δ
y
(2)
\lim_{\Delta y\to 0}\frac{f(x_0+\Delta y,y_0)-f(x_0,y_0)}{\Delta y}\tag{2}
Δy→0limΔyf(x0+Δy,y0)−f(x0,y0)(2)
记作:
∂
z
∂
y
∣
x
=
x
0
y
=
y
0
,
∂
f
∂
y
∣
x
=
x
0
y
=
y
0
,
z
y
∣
x
=
x
0
y
=
y
0
或
f
y
(
x
0
,
y
0
)
\frac{\partial z}{\partial y}\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}},\frac{\partial f}{\partial y}\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}},z_y\bigg|_{\begin{matrix}x=x_0\\ y=y_0\end{matrix}}或f_y(x_0,y_0)
∂y∂z∣∣∣∣x=x0y=y0,∂y∂f∣∣∣∣x=x0y=y0,zy∣∣∣∣x=x0y=y0或fy(x0,y0)
偏导数的概念还可推广到二元以上的函数.例如三元函数
u
=
f
(
x
,
y
,
z
)
u=f(x,y,z)
u=f(x,y,z)在点
(
x
,
y
,
z
)
(x,y,z)
(x,y,z)处对x的偏导数定义为:
f
x
(
x
,
y
,
z
)
=
lim
Δ
x
→
0
f
(
x
+
Δ
x
,
y
,
z
)
−
f
(
x
,
y
,
z
)
Δ
x
f_x(x,y,z)=\lim_{\Delta x\to 0}\frac{f(x+\Delta x,y,z)-f(x,y,z)}{\Delta x}
fx(x,y,z)=Δx→0limΔxf(x+Δx,y,z)−f(x,y,z)
同理有:
f
y
(
x
,
y
,
z
)
=
lim
Δ
y
→
0
f
(
x
,
y
+
Δ
y
,
z
)
−
f
(
x
,
y
,
z
)
Δ
y
f_y(x,y,z)=\lim_{\Delta y\to 0}\frac{f(x,y+\Delta y,z)-f(x,y,z)}{\Delta y}
fy(x,y,z)=Δy→0limΔyf(x,y+Δy,z)−f(x,y,z)
f
z
(
x
,
y
,
z
)
=
lim
Δ
z
→
0
f
(
x
,
y
,
z
+
Δ
z
)
−
f
(
x
,
y
,
z
)
Δ
z
f_z(x,y,z)=\lim_{\Delta z\to 0}\frac{f(x,y,z+\Delta z)-f(x,y,z)}{\Delta z}
fz(x,y,z)=Δz→0limΔzf(x,y,z+Δz)−f(x,y,z)
---------------------------------------------------------割你没商量1------------------------------------------------------
例子:求
z
=
x
2
+
3
x
y
+
y
2
z=x^2+3xy+y^2
z=x2+3xy+y2在点(1,2)处的偏导数。
∂
z
∂
x
=
2
x
+
3
y
\frac{\partial z}{\partial x}=2x+3y
∂x∂z=2x+3y
∂
z
∂
y
=
3
x
+
2
y
\frac{\partial z}{\partial y}=3x+2y
∂y∂z=3x+2y
∂
z
∂
x
∣
(
1
,
2
)
=
5
\frac{\partial z}{\partial x}\bigg |_{(1,2)}=5
∂x∂z∣∣∣∣(1,2)=5
∂
z
∂
y
∣
(
1
,
2
)
=
5
\frac{\partial z}{\partial y}\bigg |_{(1,2)}=5
∂y∂z∣∣∣∣(1,2)=5
---------------------------------------------------------割你没商量1------------------------------------------------------
二阶偏导数
设函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y)在区域D内具有偏导数
∂
z
∂
x
=
f
x
(
x
,
y
)
,
∂
z
∂
y
=
f
y
(
x
,
y
)
\frac{\partial z}{\partial x}=f_x(x,y),\frac{\partial z}{\partial y}=f_y(x,y)
∂x∂z=fx(x,y),∂y∂z=fy(x,y)
于是在D内
f
x
(
x
,
y
)
f_x(x,y)
fx(x,y),
f
y
(
x
,
y
)
f_y(x,y)
fy(x,y)都是x,y的函数.如果这两个函数的偏导数也存在,那么称它们是函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y)的二阶偏导数。按照对变量求导次序的不同有下列四个二阶偏导数:
∂
∂
x
(
∂
z
∂
x
)
=
∂
2
z
∂
x
2
=
f
x
x
(
x
,
y
)
,
∂
∂
y
(
∂
z
∂
x
)
=
∂
2
z
∂
x
∂
y
=
f
x
y
(
x
,
y
)
\frac{\partial }{\partial x}\left(\frac{\partial z}{\partial x}\right)=\frac{\partial^2z }{\partial x^2}=f_{xx}(x,y),\frac{\partial }{\partial y}\left(\frac{\partial z}{\partial x}\right)=\frac{\partial^2z }{\partial x\partial y}=f_{xy}(x,y)
∂x∂(∂x∂z)=∂x2∂2z=fxx(x,y),∂y∂(∂x∂z)=∂x∂y∂2z=fxy(x,y)
∂
∂
x
(
∂
z
∂
y
)
=
∂
2
z
∂
y
∂
x
=
f
y
x
(
x
,
y
)
,
∂
∂
y
(
∂
z
∂
y
)
=
∂
2
z
∂
y
2
=
f
y
y
(
x
,
y
)
\frac{\partial }{\partial x}\left(\frac{\partial z}{\partial y}\right)=\frac{\partial^2z }{\partial y\partial x}=f_{yx}(x,y),\frac{\partial }{\partial y}\left(\frac{\partial z}{\partial y}\right)=\frac{\partial^2z }{\partial y^2}=f_{yy}(x,y)
∂x∂(∂y∂z)=∂y∂x∂2z=fyx(x,y),∂y∂(∂y∂z)=∂y2∂2z=fyy(x,y)
2.多元复合函数求导法则
2.1.一元函数与多元函数复合的情形
定理1如果函数
u
=
φ
(
t
)
u=\varphi(t)
u=φ(t)及
v
=
ψ
(
t
)
v=\psi(t)
v=ψ(t)都在点
t
t
t可导,函数
z
=
f
(
u
,
v
)
z=f(u,v)
z=f(u,v)在对应点
(
u
,
v
)
(u,v)
(u,v)具有连续偏导数,那么复合函数:
z
=
f
[
φ
(
t
)
,
ψ
(
t
)
]
z=f[\varphi(t),\psi(t)]
z=f[φ(t),ψ(t)]在点
t
t
t可导,且有
d
z
d
t
=
∂
z
∂
u
∂
u
∂
t
+
∂
z
∂
v
∂
v
∂
t
\frac{dz}{dt}=\frac{\partial z}{\partial u}\frac{\partial u}{\partial t}+\frac{\partial z}{\partial v}\frac{\partial v}{\partial t}
dtdz=∂u∂z∂t∂u+∂v∂z∂t∂v
2.2.多元函数与多元函数复合的情形
定理2如果函数
u
=
φ
(
x
,
y
)
u=\varphi(x,y)
u=φ(x,y)及
v
=
ψ
(
x
,
y
)
v=\psi(x,y)
v=ψ(x,y)都在点
(
x
,
y
)
(x,y)
(x,y)具有对x及对y的偏导数,函数
z
=
f
(
u
,
v
)
z=f(u,v)
z=f(u,v)在对应点
(
u
,
v
)
(u,v)
(u,v)具有连续偏导数,那么复合函数
z
=
f
[
φ
(
x
,
y
)
,
ψ
(
x
,
y
)
]
z=f[\varphi(x,y),\psi(x,y)]
z=f[φ(x,y),ψ(x,y)]在点
(
x
,
y
)
(x,y)
(x,y)的两个偏导数都存在,且有
∂
z
∂
x
=
∂
z
∂
u
∂
u
∂
x
+
∂
z
∂
v
∂
v
∂
x
\frac{\partial z}{\partial x}=\frac{\partial z}{\partial u}\frac{\partial u}{\partial x}+\frac{\partial z}{\partial v}\frac{\partial v}{\partial x}
∂x∂z=∂u∂z∂x∂u+∂v∂z∂x∂v
∂
z
∂
y
=
∂
z
∂
u
∂
u
∂
y
+
∂
z
∂
v
∂
v
∂
y
\frac{\partial z}{\partial y}=\frac{\partial z}{\partial u}\frac{\partial u}{\partial y}+\frac{\partial z}{\partial v}\frac{\partial v}{\partial y}
∂y∂z=∂u∂z∂y∂u+∂v∂z∂y∂v
3.方向导数与梯度(重要)
方向导数
以二元函数为例:
{
x
=
x
0
+
t
c
o
s
α
y
=
y
0
+
t
c
o
s
β
(
t
≥
0
)
\left\{\begin{matrix}x=x_0+tcos\alpha\\y=y_0+tcos\beta \end{matrix}\right.(t\geq 0)
{x=x0+tcosαy=y0+tcosβ(t≥0)
t从图像上看实际上就是从
P
0
P_0
P0到
P
P
P的距离
引入方向导数(想要求沿着哪个方向走,x和y的变化最大/快):
∂
f
∂
l
∣
x
0
,
y
0
=
lim
t
→
0
+
f
(
x
0
+
t
c
o
s
α
,
y
0
+
t
c
o
s
β
)
−
f
(
x
0
,
y
0
)
t
(3)
\frac{\partial f}{\partial l}\bigg|_{x_0,y_0}=\lim_{t\to0^+}\frac{f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0)}{t}\tag{3}
∂l∂f∣∣∣∣x0,y0=t→0+limtf(x0+tcosα,y0+tcosβ)−f(x0,y0)(3)
定理如果函数
f
(
x
,
y
)
f(x,y)
f(x,y)在点
P
0
(
x
0
,
y
0
)
P_0(x_0,y_0)
P0(x0,y0)可微分,那么函数在该点沿任一方向
l
l
l的方向导数存在,且有
∂
f
∂
l
∣
x
0
,
y
0
=
f
x
(
x
0
,
y
0
)
c
o
s
α
+
f
y
(
x
0
,
y
0
)
c
o
s
β
(4)
\frac{\partial f}{\partial l}\bigg|_{x_0,y_0}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta\tag{4}
∂l∂f∣∣∣∣x0,y0=fx(x0,y0)cosα+fy(x0,y0)cosβ(4)
等式(4)可以由(3)推出来,证明如下:
---------------------------------------------------------割你没商量2------------------------------------------------------
(
3
)
=
lim
t
→
0
+
[
f
(
x
0
+
t
c
o
s
α
,
y
0
+
t
c
o
s
β
)
−
f
(
x
0
,
y
0
+
t
c
o
s
β
)
t
+
f
(
x
0
,
y
0
+
t
c
o
s
β
)
−
f
(
x
0
,
y
0
)
t
]
(3)=\lim_{t\to0^+}[\frac{f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0+tcos\beta)}{t}+\frac{f(x_0,y_0+tcos\beta)-f(x_0,y_0)}{t}]
(3)=t→0+lim[tf(x0+tcosα,y0+tcosβ)−f(x0,y0+tcosβ)+tf(x0,y0+tcosβ)−f(x0,y0)]
分别看加号两边的两项,先看左边,分子分母同时乘上
c
o
s
α
cos\alpha
cosα:
lim
t
→
0
+
f
(
x
0
+
t
c
o
s
α
,
y
0
+
t
c
o
s
β
)
−
f
(
x
0
,
y
0
+
t
c
o
s
β
)
t
c
o
s
α
c
o
s
α
(5)
\lim_{t\to0^+}\frac{f(x_0+tcos\alpha,y_0+tcos\beta)-f(x_0,y_0+tcos\beta)}{tcos\alpha}cos\alpha\tag{5}
t→0+limtcosαf(x0+tcosα,y0+tcosβ)−f(x0,y0+tcosβ)cosα(5)
当
t
→
0
+
t\to0^+
t→0+的时候
t
c
o
s
α
→
0
tcos\alpha\to0
tcosα→0,所以可以把
t
c
o
s
α
tcos\alpha
tcosα看做是
Δ
x
\Delta x
Δx,式(5)变成:
lim
t
→
0
+
f
(
x
0
+
Δ
x
,
y
0
+
t
c
o
s
β
)
−
f
(
x
0
,
y
0
+
t
c
o
s
β
)
Δ
x
c
o
s
α
(6)
\lim_{t\to0^+}\frac{f(x_0+\Delta x,y_0+tcos\beta)-f(x_0,y_0+tcos\beta)}{\Delta x}cos\alpha\tag{6}
t→0+limΔxf(x0+Δx,y0+tcosβ)−f(x0,y0+tcosβ)cosα(6)
根据最上面偏导数的定义公式(1),把
y
0
+
t
c
o
s
β
y_0+tcos\beta
y0+tcosβ看成一个整体,可知(6)就是
f
x
(
x
0
,
y
0
+
t
c
o
s
β
)
c
o
s
α
f_x(x_0,y_0+tcos\beta)cos\alpha
fx(x0,y0+tcosβ)cosα
由于
t
→
0
t\to0
t→0,
f
x
(
x
0
,
y
0
+
t
c
o
s
β
)
c
o
s
α
=
f
x
(
x
0
,
y
0
)
c
o
s
α
f_x(x_0,y_0+tcos\beta)cos\alpha=f_x(x_0,y_0)cos\alpha
fx(x0,y0+tcosβ)cosα=fx(x0,y0)cosα
再看右边,,分子分母同时乘上
c
o
s
β
cos\beta
cosβ:
lim
t
→
0
+
f
(
x
0
,
y
0
+
t
c
o
s
β
)
−
f
(
x
0
,
y
0
)
t
c
o
s
β
c
o
s
β
(7)
\lim_{t\to0^+}\frac{f(x_0,y_0+tcos\beta)-f(x_0,y_0)}{tcos\beta}cos\beta\tag{7}
t→0+limtcosβf(x0,y0+tcosβ)−f(x0,y0)cosβ(7)
同样的,把
t
c
o
s
β
tcos\beta
tcosβ看做是
Δ
y
\Delta y
Δy,式(7)变成:
lim
t
→
0
+
f
(
x
0
,
y
0
+
Δ
y
)
−
f
(
x
0
,
y
0
)
Δ
y
c
o
s
β
(8)
\lim_{t\to0^+}\frac{f(x_0,y_0+\Delta y)-f(x_0,y_0)}{\Delta y}cos\beta\tag{8}
t→0+limΔyf(x0,y0+Δy)−f(x0,y0)cosβ(8)
根据最上面偏导数的定义公式(2),可知(8)就是:
f
y
(
x
0
,
y
0
)
c
o
s
β
f_y(x_0,y_0)cos\beta
fy(x0,y0)cosβ
所以(4)=(3),搞定。
---------------------------------------------------------割你没商量2------------------------------------------------------
梯度
与方向导数有关联的一个概念是函数的梯度。在二元函数的情形,设函数
f
(
x
,
y
)
f(x,y)
f(x,y)在平面区域D内具有一阶连续偏导数,则对于每一点
P
0
(
x
0
,
y
0
)
∈
D
P_0(x_0,y_0)\in D
P0(x0,y0)∈D,都可定出一个向量
f
x
(
x
0
,
y
0
)
i
+
f
y
(
x
0
,
y
0
)
j
f_x(x_0,y_0)i+f_y(x_0,y_0)j
fx(x0,y0)i+fy(x0,y0)j
这向量称为函数
f
(
x
,
y
)
f(x,y)
f(x,y)在点
P
0
(
x
0
,
y
0
)
P_0(x_0,y_0)
P0(x0,y0)的梯度,记作grad
f
(
x
0
,
y
0
)
f(x_0,y_0)
f(x0,y0)或
▽
f
(
x
0
,
y
0
)
\triangledown f(x_0,y_0)
▽f(x0,y0),即
g
r
a
d
f
(
x
0
,
y
0
)
=
▽
f
(
x
0
,
y
0
)
=
f
x
(
x
0
,
y
0
)
i
+
f
y
(
x
0
,
y
0
)
j
grad\space f(x_0,y_0)=\triangledown f(x_0,y_0)=f_x(x_0,y_0)i+f_y(x_0,y_0)j
grad f(x0,y0)=▽f(x0,y0)=fx(x0,y0)i+fy(x0,y0)j
如果函数
f
(
x
,
y
)
f(x,y)
f(x,y)在点
P
0
(
x
0
,
y
0
)
P_0(x_0,y_0)
P0(x0,y0)可微分,
e
l
=
(
c
o
s
α
,
c
o
s
β
)
e_l=(cos\alpha,cos\beta)
el=(cosα,cosβ)是与方向
l
l
l同向的单位向量,那么
∂
f
∂
l
∣
x
0
,
y
0
=
f
x
(
x
0
,
y
0
)
c
o
s
α
+
f
y
(
x
0
,
y
0
)
c
o
s
β
(4)
\frac{\partial f}{\partial l}\bigg|_{x_0,y_0}=f_x(x_0,y_0)cos\alpha+f_y(x_0,y_0)cos\beta\tag{4}
∂l∂f∣∣∣∣x0,y0=fx(x0,y0)cosα+fy(x0,y0)cosβ(4)
两个向量的点积可以写成两个向量的模长乘以夹角的余弦值。
θ
=
0
\theta=0
θ=0的时候变量变化得最快。
=
g
r
a
d
f
(
x
0
,
y
0
)
⋅
e
l
=
∣
g
r
a
d
f
(
x
0
,
y
0
)
∣
c
o
s
θ
=grad\space f(x_0,y_0)\cdot e_l=|grad\space f(x_0,y_0)|cos\theta
=grad f(x0,y0)⋅el=∣grad f(x0,y0)∣cosθ
4.多元函数泰勒公式
多元函数泰勒公式
以上是比较晦涩的公式,实际使用中,只要展开的前面两项
f
(
x
0
+
Δ
x
,
y
0
+
Δ
y
)
=
f
(
x
0
,
y
0
)
+
(9)
f(x_0+\Delta x,y_0+\Delta y)=f(x_0,y_0)+\tag{9}
f(x0+Δx,y0+Δy)=f(x0,y0)+(9)
f
x
(
x
0
,
y
0
)
Δ
x
+
f
y
(
x
0
,
y
0
)
Δ
y
+
(10)
f_x(x_0,y_0)\Delta x+f_y(x_0,y_0)\Delta y+\tag{10}
fx(x0,y0)Δx+fy(x0,y0)Δy+(10)
f
x
x
(
x
0
,
y
0
)
Δ
x
2
+
2
f
x
y
(
x
0
,
y
0
)
Δ
x
Δ
y
+
f
y
y
(
x
0
,
y
0
)
Δ
y
2
(11)
f_{xx}(x_0,y_0)\Delta x^2+2f_{xy}(x_0,y_0)\Delta x\Delta y+f_{yy}(x_0,y_0)\Delta y^2\tag{11}
fxx(x0,y0)Δx2+2fxy(x0,y0)ΔxΔy+fyy(x0,y0)Δy2(11)
可以看到(9)是0次项,(10)是一次项,(11)是二次项,后面的三次项一般都省略不用。
(10)可以看做是:
[
f
x
f
y
]
[
Δ
x
Δ
y
]
=
▽
f
T
[
Δ
x
Δ
y
]
\begin{bmatrix}f_x& f_y\end{bmatrix}\begin{bmatrix}\Delta x\\ \Delta y\end{bmatrix}=\triangledown f^T\begin{bmatrix}\Delta x\\ \Delta y\end{bmatrix}
[fxfy][ΔxΔy]=▽fT[ΔxΔy]
(11)可以看做是:
[
Δ
x
Δ
y
]
[
f
x
x
f
x
y
f
x
y
f
y
y
]
[
Δ
x
Δ
y
]
\begin{bmatrix}\Delta x& \Delta y\end{bmatrix}\begin{bmatrix}f_{xx}&f_{xy}\\f_{xy}&f_{yy}\end{bmatrix}\begin{bmatrix}\Delta x\\ \Delta y\end{bmatrix}
[ΔxΔy][fxxfxyfxyfyy][ΔxΔy]
[
f
x
x
f
x
y
f
x
y
f
y
y
]
\begin{bmatrix}f_{xx}&f_{xy}\\f_{xy}&f_{yy}\end{bmatrix}
[fxxfxyfxyfyy]称为hessian矩阵。
海森矩阵(二维或高维)
把上面的二元推广到多元,例如,设函数为
f
(
x
1
,
x
2
,
.
.
.
,
x
n
)
f(x_1,x_2,...,x_n)
f(x1,x2,...,xn),则它的泰勒展开为:
f
(
x
1
+
Δ
x
1
,
x
2
+
Δ
x
2
,
.
.
.
,
x
n
+
Δ
x
n
)
=
f
(
x
1
,
x
2
,
.
.
.
,
x
n
)
+
f(x_1+\Delta x_1,x_2+\Delta x_2,...,x_n+\Delta x_n)=f(x_1,x_2,...,x_n)+
f(x1+Δx1,x2+Δx2,...,xn+Δxn)=f(x1,x2,...,xn)+
[
Δ
x
1
Δ
x
2
⋯
Δ
x
n
]
[
f
x
1
(
x
1
,
x
2
,
.
.
.
,
x
n
)
f
x
2
(
x
1
,
x
2
,
.
.
.
,
x
n
)
⋮
f
x
n
(
x
1
,
x
2
,
.
.
.
,
x
n
)
]
+
\begin{bmatrix}\Delta x_1&\Delta x_2&\cdots&\Delta x_n\end{bmatrix}\begin{bmatrix}f_{x_1}(x_1,x_2,...,x_n)\\ f_{x_2}(x_1,x_2,...,x_n)\\\vdots\\f_{x_n}(x_1,x_2,...,x_n)\end{bmatrix}+
[Δx1Δx2⋯Δxn]⎣⎢⎢⎢⎡fx1(x1,x2,...,xn)fx2(x1,x2,...,xn)⋮fxn(x1,x2,...,xn)⎦⎥⎥⎥⎤+
[
Δ
x
1
Δ
x
2
⋯
Δ
x
n
]
[
H
e
s
s
i
a
n
M
a
t
r
i
x
H
]
n
×
n
[
Δ
x
1
Δ
x
2
⋮
Δ
x
n
]
\begin{bmatrix}\Delta x_1&\Delta x_2&\cdots&\Delta x_n\end{bmatrix}[Hessian \space Matrix\space H]_{n×n}\begin{bmatrix}\Delta x_1\\\Delta x_2\\\vdots\\\Delta x_n\end{bmatrix}
[Δx1Δx2⋯Δxn][Hessian Matrix H]n×n⎣⎢⎢⎢⎡Δx1Δx2⋮Δxn⎦⎥⎥⎥⎤
中间的黑神矩阵的通项为:
h
i
j
=
∂
2
f
Δ
x
i
Δ
x
j
h_{ij}=\frac{\partial^2f}{\Delta x_i\Delta x_j}
hij=ΔxiΔxj∂2f
例如矩阵第一行为:
f
x
1
x
1
,
f
x
1
x
2
,
.
.
.
,
x
1
x
n
f_{x_1x_1},f_{x_1x_2},...,_{x_1x_n}
fx1x1,fx1x2,...,x1xn
黑神矩阵是对称矩阵。
5.多元函数的极值
定义设函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y)的定义域为
D
D
D,
P
0
(
x
0
,
y
0
)
P_0(x_0,y_0)
P0(x0,y0)为D的内点。若存在
P
0
P_0
P0
的某个邻域
U
(
P
0
)
⊂
D
U(P_0)\subset D
U(P0)⊂D,使得对于该邻域内异于
P
0
P_0
P0的任何点
(
x
,
y
)
(x,y)
(x,y),都有
f
(
x
,
y
)
<
f
(
x
0
,
y
0
)
f(x,y)<f(x_0,y_0)
f(x,y)<f(x0,y0)
则称函数
f
(
x
,
y
)
f(x,y)
f(x,y)在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)有极大值
f
(
x
0
,
y
0
)
f(x_0,y_0)
f(x0,y0),点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)称为函数
f
(
x
,
y
)
f(x,y)
f(x,y)的极大值点;
若对于该邻域内异于
P
0
P_0
P0的任何点
(
x
,
y
)
(x,y)
(x,y),都有
f
(
x
,
y
)
>
f
(
x
0
,
y
0
)
f(x,y)>f(x_0,y_0)
f(x,y)>f(x0,y0)
则称函数
f
(
x
,
y
)
f(x,y)
f(x,y)在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)有极小值
f
(
x
0
,
y
0
)
f(x_0,y_0)
f(x0,y0),点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)称为函数
f
(
x
,
y
)
f(x,y)
f(x,y)的极小值点.
极大值与极小值统称为极值.使得函数取得极值的点称为极值点.
定理1(必要条件)设函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y)在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)具有偏导数,且在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)处有极值,则有
f
x
(
x
0
,
y
0
)
=
0
,
f
y
(
x
0
,
y
0
)
=
0
f_x(x_0,y_0)=0,f_y(x_0,y_0)=0
fx(x0,y0)=0,fy(x0,y0)=0
定理2(充分条件)设函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y)在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)的某邻域内连续且有一阶及二阶连续偏导数,又
f
x
(
x
0
,
y
0
)
=
0
,
f
y
(
x
0
,
y
0
)
=
0
f_x(x_0,y_0)=0,f_y(x_0,y_0)=0
fx(x0,y0)=0,fy(x0,y0)=0,令
f
x
x
(
x
0
,
y
0
)
=
A
,
f
x
y
(
x
0
,
y
0
)
=
B
,
f
y
y
(
x
0
,
y
0
)
=
C
f_{xx}(x_0,y_0)=A,f_{xy}(x_0,y_0)=B,f_{yy}(x_0,y_0)=C
fxx(x0,y0)=A,fxy(x0,y0)=B,fyy(x0,y0)=C
则
f
(
x
,
y
)
f(x,y)
f(x,y)在
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)处是否取得极值的条件如下:
(1)
A
C
−
B
2
>
0
AC-B^2>0
AC−B2>0时具有极值,且当
A
<
0
A<0
A<0时有极大值,当
A
>
0
A>0
A>0时有极小值;
(2)
A
C
−
B
2
<
0
AC-B^2<0
AC−B2<0时没有极值;
(3)
A
C
−
B
2
=
0
AC-B^2=0
AC−B2=0时可能有极值,也可能没有极值,还需另作讨论.
这里可以看到
[
f
x
x
f
x
y
f
x
y
f
y
x
]
=
[
A
B
B
C
]
\begin{bmatrix}f_{xx}&f_{xy}\\f_{xy}&f_{yx}\end{bmatrix}=\begin{bmatrix}A&B\\B&C\end{bmatrix}
[fxxfxyfxyfyx]=[ABBC]是黑神矩阵。
---------------------------------------------------------割你没商量3------------------------------------------------------
这里吧充分条件进行证明。
假设
(
x
,
y
)
(x,y)
(x,y)是领域内的一个点,则在这个点上用泰勒展开得:
f
(
x
,
y
)
=
f
(
x
0
,
y
0
)
+
▽
f
T
(
x
,
y
)
[
x
−
x
0
y
−
y
0
]
+
1
2
[
x
−
x
0
y
−
y
0
]
[
A
B
B
C
]
[
x
−
x
0
y
−
y
0
]
(12)
f(x,y)=f(x_0,y_0)+\triangledown f^T(x,y)\begin{bmatrix}x-x_0\\ y-y_0\end{bmatrix}+\frac{1}{2}\begin{bmatrix}x-x_0& y-y_0\end{bmatrix}\begin{bmatrix}A&B\\B&C\end{bmatrix}\begin{bmatrix}x-x_0\\ y-y_0\end{bmatrix}\tag{12}
f(x,y)=f(x0,y0)+▽fT(x,y)[x−x0y−y0]+21[x−x0y−y0][ABBC][x−x0y−y0](12)
由于
f
x
(
x
0
,
y
0
)
=
0
,
f
y
(
x
0
,
y
0
)
=
0
f_x(x_0,y_0)=0,f_y(x_0,y_0)=0
fx(x0,y0)=0,fy(x0,y0)=0,所以
▽
f
T
(
x
,
y
)
[
x
−
x
0
y
−
y
0
]
=
0
\triangledown f^T(x,y)\begin{bmatrix}x-x_0\\ y-y_0\end{bmatrix}=0
▽fT(x,y)[x−x0y−y0]=0
令
x
−
x
0
=
Δ
x
,
y
−
y
0
=
Δ
y
x-x_0=\Delta x,y-y_0=\Delta y
x−x0=Δx,y−y0=Δy,式(12)变成:
=
f
(
x
0
,
y
0
)
+
1
2
[
Δ
x
Δ
y
]
[
A
B
B
C
]
[
Δ
x
Δ
y
]
(13)
=f(x_0,y_0)+\frac{1}{2}\begin{bmatrix}\Delta x& \Delta y\end{bmatrix}\begin{bmatrix}A&B\\B&C\end{bmatrix}\begin{bmatrix}\Delta x\\ \Delta y\end{bmatrix}\tag{13}
=f(x0,y0)+21[ΔxΔy][ABBC][ΔxΔy](13)
---------------------------------------------------------割你没商量3.1----------------------------------------------------
之前讨论正定矩阵的时候有过结论:
一个矩阵M是正定矩阵,则在他的左右两边乘以向量及向量转置大于等于0:
u
t
M
u
≥
0
u^tMu\geq0
utMu≥0
一个矩阵M不是正定矩阵,则在他的左右两边乘以向量及向量转置大于等于0:
u
t
M
u
<
0
u^tMu<0
utMu<0
---------------------------------------------------------割你没商量3.1----------------------------------------------------
从式(13)可知,如果
[
A
B
B
C
]
\begin{bmatrix}A&B\\B&C\end{bmatrix}
[ABBC]正定,
f
(
x
,
y
)
=
f
(
x
0
,
y
0
)
+
正
数
f(x,y)=f(x_0,y_0)+正数
f(x,y)=f(x0,y0)+正数,即
f
(
x
,
y
)
>
f
(
x
0
,
y
0
)
f(x,y)>f(x_0,y_0)
f(x,y)>f(x0,y0),
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)是极小值;
如果
[
A
B
B
C
]
\begin{bmatrix}A&B\\B&C\end{bmatrix}
[ABBC]负定,
f
(
x
,
y
)
=
f
(
x
0
,
y
0
)
+
负
数
f(x,y)=f(x_0,y_0)+负数
f(x,y)=f(x0,y0)+负数,即
f
(
x
,
y
)
<
f
(
x
0
,
y
0
)
f(x,y)<f(x_0,y_0)
f(x,y)<f(x0,y0),
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0)是极大值;
---------------------------------------------------------割你没商量3.2----------------------------------------------------
接下来要判断矩阵啥时候正定,根据正定的定理可知,如果一个矩阵正定,那么它的所有特征值要大于0。如果一个矩阵不正定,那么它的所有特征值要小于0。
---------------------------------------------------------割你没商量3.2----------------------------------------------------
上面
[
A
B
B
C
]
\begin{bmatrix}A&B\\B&C\end{bmatrix}
[ABBC]的特征值行列式为:
∣
A
−
λ
B
B
C
−
λ
∣
=
(
λ
−
A
)
(
λ
−
C
)
−
B
2
\begin{vmatrix}A-\lambda&B\\B&C-\lambda\end{vmatrix}=(\lambda-A)(\lambda-C)-B^2
∣∣∣∣A−λBBC−λ∣∣∣∣=(λ−A)(λ−C)−B2
=
λ
2
−
(
A
+
C
)
λ
+
A
C
−
B
2
=
0
=\lambda^2-(A+C)\lambda+AC-B^2=0
=λ2−(A+C)λ+AC−B2=0
情况1:正定,即
λ
1
>
0
,
λ
2
>
0
→
A
+
C
>
0
a
n
d
A
C
−
B
2
>
0
\lambda_1>0,\lambda_2>0\to A+C>0 and AC-B^2>0
λ1>0,λ2>0→A+C>0andAC−B2>0(韦达定理)
情况2:负定,即
λ
1
<
0
,
λ
2
<
0
→
A
+
C
<
0
a
n
d
A
C
−
B
2
>
0
\lambda_1<0,\lambda_2<0\to A+C<0 and AC-B^2>0
λ1<0,λ2<0→A+C<0andAC−B2>0(韦达定理)
无论是正定还是负定,都会有极值,也就是都满足条件
A
C
−
B
2
>
0
AC-B^2>0
AC−B2>0,也就是
A
C
>
B
2
AC>B^2
AC>B2,意味AC同号,
情况一的时候A+C>0 ,此时AC都要为正数,即A>0时,
[
A
B
B
C
]
\begin{bmatrix}A&B\\B&C\end{bmatrix}
[ABBC]正定且有极小值;
情况二的时候A+C<0 ,此时AC都要为负数,即A<0时,
[
A
B
B
C
]
\begin{bmatrix}A&B\\B&C\end{bmatrix}
[ABBC]负定且有极大值。
条件(1)得证。其他两个条件证明省略。
---------------------------------------------------------割你没商量3------------------------------------------------------
6.矩阵的求导
常见性质
1.
f
(
x
)
=
A
x
f(x)=Ax
f(x)=Ax,则
∂
f
(
x
)
∂
x
T
=
∂
A
x
∂
x
T
=
A
\frac{\partial f(x)}{\partial x^T}=\frac{\partial Ax}{\partial x^T}=A
∂xT∂f(x)=∂xT∂Ax=A
2.
f
(
x
)
=
x
T
A
x
f(x)=x^TAx
f(x)=xTAx,则
∂
f
(
x
)
∂
x
=
∂
(
x
T
A
x
)
∂
x
T
=
A
x
+
A
T
x
\frac{\partial f(x)}{\partial x}=\frac{\partial (x^TAx)}{\partial x^T}=Ax+A^Tx
∂x∂f(x)=∂xT∂(xTAx)=Ax+ATx
3.
f
(
x
)
=
a
T
x
f(x)=a^Tx
f(x)=aTx,则
∂
a
T
x
∂
x
=
∂
x
T
a
∂
x
=
a
\frac{\partial a^Tx}{\partial x}=\frac{\partial x^Ta}{\partial x}=a
∂x∂aTx=∂x∂xTa=a
4.
f
(
x
)
=
x
T
A
y
f(x)=x^TAy
f(x)=xTAy.则
∂
x
a
T
A
y
∂
x
=
A
y
\frac{\partial xa^TAy}{\partial x}=Ay
∂x∂xaTAy=Ay
∂
x
a
T
A
y
∂
A
=
x
y
T
\frac{\partial xa^TAy}{\partial A}=xy^T
∂A∂xaTAy=xyT
要搞清楚矩阵求导之后变成一个矩阵还是一个值?
矩阵求导公式大全