多元函数的泰勒展开式和Hession矩阵的定义
泰勒公式是将一个在
x
=
x
0
x=x_0
x=x0处具有
n
n
n阶导数的函数
f
(
x
)
f(x)
f(x)利用关于
(
x
−
x
0
)
(x-x_0)
(x−x0)的
n
n
n次多项式来逼近函数的方法。
f
(
x
1
,
x
2
,
.
.
x
n
)
f(x_1, x_2,..x_n)
f(x1,x2,..xn)在点
X
0
X_0
X0处的泰勒展开:
f
(
X
)
=
f
(
X
0
)
+
∇
f
(
X
0
)
T
Δ
X
+
1
2
!
Δ
X
T
G
(
X
0
)
Δ
X
+
o
(
∣
Δ
X
∣
2
)
f(X)=f(X_0)+\nabla f(X_0)^T\Delta X+\frac{1}{2!} \Delta X^TG(X_0)\Delta X+o(|\Delta X|^2)
f(X)=f(X0)+∇f(X0)TΔX+2!1ΔXTG(X0)ΔX+o(∣ΔX∣2)
其中
G
(
X
)
=
[
∂
2
f
∂
x
1
2
∂
2
f
∂
x
1
∂
x
2
∂
2
f
∂
x
2
∂
x
1
∂
2
f
∂
x
2
2
]
∣
X
0
,
Δ
X
=
(
Δ
x
1
Δ
x
2
)
,
G(X)=\begin{bmatrix} \frac{\partial^2f }{\partial x_1^2} & \frac{\partial^2f }{\partial x_1\partial x_2} \\ \frac{\partial^2f }{\partial x_2\partial x_1} &\frac{\partial^2f }{\partial x_2^2} \end{bmatrix} \Bigg|_{X_0},\Delta X= \begin{pmatrix} \Delta x_1\\\Delta x_2 \end{pmatrix},
G(X)=[∂x12∂2f∂x2∂x1∂2f∂x1∂x2∂2f∂x22∂2f]∣∣∣∣∣X0,ΔX=(Δx1Δx2),
G
(
X
)
G(X)
G(X)成为Hession矩阵.
Hession矩阵正定与函数极值
定理:
一阶导数为0或者说梯度为0的情况下:
- 正定 - 极小值
- 负定 - 极大值
- 不定 - 非极值
- 半正定或半负定 - 不确定
证明
- 因为Hession矩阵正定,则
Δ X T G ( X 0 ) Δ X > 0 \Delta X^TG(X_0)\Delta X > 0 ΔXTG(X0)ΔX>0
所以存在 Θ > 0 , Θ \Theta>0, \ \ \Theta Θ>0, Θ为 n n n维向量使得 X = X 0 + Θ X=X_0+\Theta X=X0+Θ
f ( X ) = f ( X 0 + Θ ) = f ( X 0 ) + ∇ f ( X 0 ) T Δ X + 1 2 ! Δ X T G ( X 0 ) Δ X + o ( ∣ Δ X ∣ 2 ) > f ( X 0 ) + ∇ f ( X 0 ) T Δ X > f ( X 0 ) \begin{aligned} f(X) &= f(X_0+\Theta) \\ &= f(X_0)+\nabla f(X_0)^T\Delta X+\frac{1}{2!} \Delta X^TG(X_0)\Delta X+o(|\Delta X|^2) \\ &>f(X_0)+\nabla f(X_0)^T\Delta X\\ &>f(X_0) \end{aligned} f(X)=f(X0+Θ)=f(X0)+∇f(X0)TΔX+2!1ΔXTG(X0)ΔX+o(∣ΔX∣2)>f(X0)+∇f(X0)TΔX>f(X0)