二次型、正定、半正定关系
Reference:
相关文章:
1. 二次函数的特点
1.1 二次函数
最简单的一元二次函数就是:
给它增加一次项不会改变形状:
增加常数项就更不用说了,更不会改变形状。
1.2 二次方程
下面是一个二元二次方程:
给它增加一次项也不会改变形状,只是看上去有些伸缩:
1.3 小结
对于二次函数或者二次方程,二次部分是主要部分,往往研究二次这部分就够了。
2. 通过矩阵来研究二次方程
因为二次函数(方程)的二次部分最重要,为了方便研究,我们把含有
n
n
n 个变量的二次齐次函数:
f
(
x
1
,
x
2
,
⋅
,
x
n
)
=
a
11
x
1
2
+
a
22
x
2
2
+
⋅
⋅
⋅
+
a
n
n
x
n
2
+
2
a
12
x
1
x
2
+
2
a
13
x
1
x
3
+
⋅
⋅
⋅
+
2
a
n
−
1
,
n
x
n
−
1
x
n
f(x_1, x_2, \cdot, x_n) = a_{11}x_1^2 + a_{22}x_2^2 + \cdot\cdot\cdot + a_{nn}x_n^2 + 2a_{12}x_1x_2 + 2a_{13}x_1x_3 + \cdot\cdot\cdot + 2a_{n-1,n}x_{n-1}x_{n}
f(x1,x2,⋅,xn)=a11x12+a22x22+⋅⋅⋅+annxn2+2a12x1x2+2a13x1x3+⋅⋅⋅+2an−1,nxn−1xn二次齐次方程称为二次型。
2.1 二次型矩阵
实际上我们可以通过矩阵来表示二次型:
更一般的:
可以写成更线代的形式:
所以有下面一一对应的关系:
对称矩阵
⇔
二次型矩阵
⇔
二次型
对称矩阵\Leftrightarrow 二次型矩阵 \Leftrightarrow 二次型
对称矩阵⇔二次型矩阵⇔二次型在线代里面,就是通过一个对称矩阵,去研究某个二次型。
2.2 通过矩阵来研究有什么好处
2.2.1 圆锥曲线
我们来看下,这是一个圆:
改变一下这个二次型矩阵:
哈,原来椭圆与圆之间是线性关系呐(通过矩阵变换就可以从圆变为椭圆)。
再改变一下:
咦,双曲线和圆之间也是线性关系(准确 说是仿射的)。
其实圆、椭圆、双曲线之间关系很紧密的,统称为圆锥曲线
,都是圆锥体和平面的交线:
从上面动图可看出,一个平面在圆锥体上运动,可以得到圆、椭圆、双曲线,这也是它们之间具有线性关系的来源(平面的运动是线性的、或者是仿射的)。
2.2.2 规范化
再改变下矩阵:
这个椭圆看起来有点歪,不太好处理,我们来把它扶正,这就叫做规范化
。
如果我们对矩阵有更深刻的认识,那么要把它扶正很简单。
往下读之前,请先参看如何理解特征值下的回答。
首先,矩阵代表了运动,包含:
- 旋转
- 拉伸
- 投影
对于方阵,因为没有维度的改变,所以就没有投影这个运动了,只有:
- 旋转
- 拉伸
具体到上面的矩阵:
我把这个矩阵进行特征值分解:
注意图上提到的正交很重要,为什么重要,可以参看在如何理解特征值中的解释。
对于二次型矩阵,都是对称矩阵,所以特征值分解总可以得到正交矩阵与对角矩阵。
特征值分解实际上就是把运动分解了:
那么我们只需要保留拉伸部分,就相当于把矩阵扶正(图中把各自图形的二次型矩阵标注出来了):
所以,用二次型矩阵进行规范化是非常轻松的事情。
2.2.3 正定
正定是对二次函数有效的一个定义,对方程无效。
对于二次型函数, f ( x ) = x T A x f(\boldsymbol{x})=\boldsymbol{x}^T\boldsymbol{Ax} f(x)=xTAx:
-
f
(
X
)
>
0
,
x
≠
0
,
x
∈
R
f(X)>0,x\neq 0, x\in\mathbb{R}
f(X)>0,x=0,x∈R,则
f
f
f 为
正定二次型
, A A A 为正定矩阵
; -
f
(
X
)
≥
0
,
x
≠
0
,
x
∈
R
f(X)\geq0,x\neq 0, x\in\mathbb{R}
f(X)≥0,x=0,x∈R,则
f
f
f 为
半正定二次型
, A A A 为半正定矩阵
;
注意,半正定矩阵是不可逆的。我们知道,当特征值等于 0 0 0 就不可逆了。半正定可以写成正交特征向量为基的对角矩阵,正交矩阵对矩阵det无影响所以在判断正负的时候可以忽略。正定矩阵对角化后特征值都是正的,半正定则意味着至少有一个特征向量是0,使得存在 x T A x = 0 \boldsymbol{x}^T\boldsymbol{Ax}=0 xTAx=0。又因为相似不改变矩阵的det,所以半正定矩阵 det=0,不可逆。 -
f
(
X
)
<
0
,
x
≠
0
,
x
∈
R
f(X)<0,x\neq 0, x\in\mathbb{R}
f(X)<0,x=0,x∈R,则
f
f
f 为
负定二次型
, A A A 为负定矩阵
; -
f
(
X
)
≤
0
,
x
≠
0
,
x
∈
R
f(X)\leq0,x\neq 0, x\in\mathbb{R}
f(X)≤0,x=0,x∈R,则
f
f
f 为
半负定二次型
, A A A 为半负定矩阵
; - 以上皆不是,就叫做
不定
。
从图像上看,这是(注意上面 x ≠ 0 x\neq 0 x=0 的条件)
- 正定:
f ( x ) = x 1 2 + x 2 2 = x T ( 1 0 0 1 ) x f(\boldsymbol{x})=x_{1}^{2}+x_{2}^{2}=\boldsymbol{x}^{\mathrm{T}}\left(\begin{array}{ll} 1 & 0 \\ 0 & 1 \end{array}\right) \boldsymbol{x} f(x)=x12+x22=xT(1001)x
- 负定:
f ( x ) = − x 1 2 − x 2 2 = x T ( − 1 0 0 − 1 ) x f(\boldsymbol{x})=-x_{1}^{2}-x_{2}^{2}=\boldsymbol{x}^{\mathrm{T}}\left(\begin{array}{ll} -1 & 0 \\ 0 & -1 \end{array}\right) \boldsymbol{x} f(x)=−x12−x22=xT(−100−1)x
- 半正定:
- 不定:
f ( x ) = 3 x 1 2 − 7 x 2 2 = x T ( 3 0 0 − 7 ) x f(\boldsymbol{x})=3x_{1}^{2}-7x_{2}^{2}=\boldsymbol{x}^{\mathrm{T}}\left(\begin{array}{ll} 3 & 0 \\ 0 & -7 \end{array}\right) \boldsymbol{x} f(x)=3x12−7x22=xT(300−7)x
既然二次型用矩阵来表示了,那么我们能否通过矩阵来判断是否正定呢?-------- 特征值都大于0,则为正定矩阵。或者使用以下方式:
2.2.3.1 赫尔维茨定理
可以通过下面这个定理来判断正定与负定:
- 已知二次型
f
(
x
)
=
x
T
A
x
f(\boldsymbol{x})=\boldsymbol{x}^T\boldsymbol{Ax}
f(x)=xTAx,其为正定的充分必要条件是,
A
\boldsymbol{A}
A 的各阶顺序主子式都为正,即:
a 11 > 0 , ∣ a 11 a 12 a 21 a 22 ∣ > 0 , ⋯ , ∣ a 11 ⋯ a 1 n ⋮ ⋮ a n 1 ⋯ a n n ∣ > 0 a_{11}>0, \left|\begin{array}{ll} a_{11} & a_{12} \\ a_{21} & a_{22} \end{array}\right|>0, \cdots,\left|\begin{array}{ccc} a_{11} & \cdots & a_{1 n} \\ \vdots & \vdots & \\ a_{n 1} & \cdots & a_{n n} \end{array}\right|>0 a11>0, a11a21a12a22 >0,⋯, a11⋮an1⋯⋮⋯a1nann >0为负定的充分必要条件是,奇数阶顺序主子式为负,而偶数阶顺序主子式为正,即:
( − 1 ) r ∣ a 11 ⋯ a 1 r ⋮ ⋮ a r 1 ⋯ a r r ∣ > 0 ( r = 1 , 2 , ⋯ , n ) (-1)^{r}\left|\begin{array}{ccc} a_{11} & \cdots & a_{1 r} \\ \vdots & & \vdots \\ a_{r 1} & \cdots & a_{r r} \end{array}\right|>0 (r=1,2, \cdots, n) (−1)r a11⋮ar1⋯⋯a1r⋮arr >0(r=1,2,⋯,n)这个定理称为赫尔维茨定理(Hurwitz theorem)
。
这里提一下该定理在数学中的应用,如果学过《单变量微积分》会知道,如果知道二阶导数和
0
0
0 的关系,就可以知道极值点是极大,还是极小:
但到了《多变量微积分》的时候,二阶导数就是一个二次型矩阵,也就是下面说的海森矩阵
,这个时候就需要通过正定与负定来描述它和
0
0
0 的关系:
设函数
z
=
f
(
x
,
y
)
z=f(x,y)
z=f(x,y) 在点
(
x
0
,
y
0
)
(x_0,y_0)
(x0,y0) 的某邻域内连续且有一阶及二阶连续偏导数,则其二阶导数,即海森矩阵为:
H
=
∂
2
z
∂
(
x
,
y
)
2
=
(
f
x
x
f
x
y
f
y
x
f
y
y
)
H=\frac{\partial^{2} z}{\partial(x, y)^{2}}=\left(\begin{array}{ll} f_{x x} & f_{x y} \\ f_{y x} & f_{y y} \end{array}\right)
H=∂(x,y)2∂2z=(fxxfyxfxyfyy)如果又有:
f
x
(
x
0
,
y
0
)
=
f
y
(
x
0
,
y
0
)
=
0
f_x(x_0, y_0) = f_y(x_0, y_0)=0
fx(x0,y0)=fy(x0,y0)=0那么:
- f ( x 0 , y 0 ) f(x_0, y_0) f(x0,y0) 为极大值,需要满足矩阵 H H H 为负定,即 f x x < 0 f_{xx}<0 fxx<0 且 ∣ H ∣ > 0 |H|>0 ∣H∣>0 (根据赫尔维茨定理,正定的条件是 奇数阶顺序主子式为负,而偶数阶顺序主子式为正,仅在这个公式中,一阶顺序主子式为 f x x f_{xx} fxx,二阶顺序主子式为 ∣ H ∣ |H| ∣H∣);
- f ( x 0 , y 0 ) f(x_0, y_0) f(x0,y0) 为极小值,需要满足矩阵 H H H 为正定,即 f x x > 0 f_{xx}>0 fxx>0 且 ∣ H ∣ > 0 |H|>0 ∣H∣>0 (根据赫尔维茨定理,正定的条件是各阶顺序主子式都为正,仅在这个公式中,一阶顺序主子式为 f x x f_{xx} fxx,二阶顺序主子式为 ∣ H ∣ |H| ∣H∣);
- f ( x 0 , y 0 ) f(x_0, y_0) f(x0,y0) 为非极值点,当 ∣ H ∣ < 0 |H|<0 ∣H∣<0;
- f ( x 0 , y 0 ) f(x_0, y_0) f(x0,y0) 无法判断是否为极值点,当 ∣ H ∣ = 0 |H|=0 ∣H∣=0。
从而判断出极值点的情况,也就是下图中的红点是极大值点,还是极小值点: