对称矩阵的对角化
对称矩阵:如果矩阵 A A A满足 A T = A A^T=A AT=A,那么 A A A为对称矩阵,对称矩阵一定是方阵。
正交对角化
如果一个矩阵
A
A
A可正交对角化,那么存在一个正交矩阵
P
P
P(根据正交矩阵的定义可知,
P
−
1
=
P
T
P^{-1}=P^T
P−1=PT)和一个对角阵,使得:
A
=
P
D
P
T
=
P
D
P
−
1
A=PDP^T=PDP^{-1}
A=PDPT=PDP−1。
定理:一个
n
×
n
n\times n
n×n的矩阵
A
A
A可以正交对角化的充要条件是
A
A
A为对称矩阵。
例1:判断矩阵 A = [ 6 − 2 − 1 − 2 6 − 1 − 1 − 1 5 ] A=\begin{bmatrix}6&-2&-1\\-2&6&-1\\-1&-1&5\end{bmatrix} A=⎣⎡6−2−1−26−1−1−15⎦⎤是否可以对角化,如果可以请对其进行对角化。
解:
A
A
A的特征方程:
0
=
d
e
t
(
A
−
λ
I
)
=
−
λ
3
+
17
λ
2
−
90
λ
+
144
=
−
(
λ
−
8
)
(
λ
−
6
)
(
λ
−
3
)
0=det(A-\lambda I)=-\lambda ^3+17\lambda^2-90\lambda+144=-(\lambda-8)(\lambda-6)(\lambda-3)
0=det(A−λI)=−λ3+17λ2−90λ+144=−(λ−8)(λ−6)(λ−3)
特征值为3,6,8.
求
λ
=
8
\lambda =8
λ=8对应的基:
化简方程
(
A
−
λ
I
)
x
=
(
A
−
8
I
)
x
=
0
(A-\lambda I)x=(A-8 I)x=0
(A−λI)x=(A−8I)x=0对应的增广矩阵:
[ 6 − 8 − 2 − 1 0 − 2 6 − 8 − 1 0 − 1 − 1 5 − 8 0 ] → [ 1 1 0 0 0 0 1 0 0 0 0 0 ] \begin{bmatrix}6-8&-2&-1&0\\-2&6-8&-1&0\\-1&-1&5-8&0\end{bmatrix}\rightarrow \begin{bmatrix}1&1&0&0\\0&0&1&0\\0&0&0&0\end{bmatrix} ⎣⎡6−8−2−1−26−8−1−1−15−8000⎦⎤→⎣⎡100100010000⎦⎤
即通解为: x = [ x 1 x 2 x 3 ] = x 2 [ − 1 1 0 ] x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=x_2\begin{bmatrix}-1\\1\\0\end{bmatrix} x=⎣⎡x1x2x3⎦⎤=x2⎣⎡−110⎦⎤
所以
λ
=
8
\lambda =8
λ=8对应的基为
v
1
=
[
−
1
1
0
]
v_1=\begin{bmatrix}-1\\1\\0\end{bmatrix}
v1=⎣⎡−110⎦⎤;同理,求得
λ
=
6
\lambda =6
λ=6对应的基为
v
2
=
[
−
1
−
1
2
]
v_2=\begin{bmatrix}-1\\-1\\2\end{bmatrix}
v2=⎣⎡−1−12⎦⎤;
λ
=
3
\lambda =3
λ=3对应的基为
v
3
=
[
1
1
1
]
v_3=\begin{bmatrix}1\\1\\1\end{bmatrix}
v3=⎣⎡111⎦⎤。
向量
v
1
v_1
v1,
v
2
v_2
v2,
v
3
v_3
v3形成了
R
3
R^3
R3上一个基,因为
v
1
T
v
2
=
0
v_1^Tv_2=0
v1Tv2=0,
v
1
T
v
3
=
0
v_1^Tv_3=0
v1Tv3=0,
v
2
T
v
3
=
0
v_2^Tv_3=0
v2Tv3=0,所以
{
v
1
,
v
2
,
v
3
}
\{v_1,v_2,v_3\}
{v1,v2,v3}是
R
3
R^3
R3上一个正交基。
单位化后得到:(注:上面的 v 1 , v 2 , v 3 v_1,v_2,v_3 v1,v2,v3是 A A A的3个线性无关的特征向量,下面 u 1 , u 2 , u 3 u_1,u_2,u_3 u1,u2,u3是单位特征向量)
u 1 = [ − 1 2 1 2 0 ] u_1=\begin{bmatrix}-\frac{1}{\sqrt2}\\\frac{1}{\sqrt2}\\0\end{bmatrix} u1=⎣⎡−21210⎦⎤
u 2 = [ − 1 6 − 1 6 2 6 ] u_2=\begin{bmatrix}-\frac{1}{\sqrt6}\\-\frac{1}{\sqrt6}\\\frac{2}{\sqrt6}\end{bmatrix} u2=⎣⎢⎡−61−6162⎦⎥⎤
u 3 = [ 1 3 1 3 1 3 ] u_3=\begin{bmatrix}\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\end{bmatrix} u3=⎣⎢⎡313131⎦⎥⎤
所以可以得到矩阵 P = [ u 1 u 2 u 3 ] = [ − 1 2 − 1 6 1 3 − 1 2 − 1 6 1 3 0 2 6 1 3 ] P=[u_1\quad u_2\quad u_3]=\begin{bmatrix}-\frac{1}{\sqrt2}&-\frac{1}{\sqrt6}&\frac{1}{\sqrt3}\\-\frac{1}{\sqrt2}&-\frac{1}{\sqrt6}&\frac{1}{\sqrt3}&\\0&\frac{2}{\sqrt6}&\frac{1}{\sqrt3}\end{bmatrix} P=[u1u2u3]=⎣⎢⎡−21−210−61−6162313131⎦⎥⎤,
所以 D = [ 8 0 0 0 6 0 0 0 3 ] D=\begin{bmatrix}8&0&0\\0&6&0\\0&0&3\end{bmatrix} D=⎣⎡800060003⎦⎤
到此, A A A对角化完成: A = P D P − 1 A=PDP^{-1} A=PDP−1。
因为 P P P是方阵,且有单位正交列,所以 P P P是正交矩阵,且 P − 1 = P T P^{-1}=P^T P−1=PT,因为正交矩阵的定义是,该矩阵可逆且有其转置等于其逆。
总结:如果 A A A是对称矩阵,那么不同特征空间的任意两个特征向量是正交的。例如本例中,特征向量 v 1 = [ − 1 1 0 ] v_1=\begin{bmatrix}-1\\1\\0\end{bmatrix} v1=⎣⎡−110⎦⎤对应的特征空间是过原点及点 ( − 1 , 1 , 0 ) (-1,1,0) (−1,1,0)的直线,该特征空间由零向量和所有对应于 λ = 8 \lambda =8 λ=8这个特征值的特征向量(即 v 1 v_1 v1的所有倍数)构成。
例2:将矩阵 A = [ 3 − 2 4 − 2 6 2 4 2 3 ] A=\begin{bmatrix}3&-2&4\\-2&6&2\\4&2&3\end{bmatrix} A=⎣⎡3−24−262423⎦⎤正交对角化。
解:
特征方程: 0 = d e t ( A − λ I ) = − λ 3 + 12 λ 2 − 21 λ − 98 = − ( λ − 7 ) 2 ( λ + 2 ) 0=det(A-\lambda I)=-\lambda ^3+12\lambda^2-21\lambda-98=-(\lambda-7)^2(\lambda+2) 0=det(A−λI)=−λ3+12λ2−21λ−98=−(λ−7)2(λ+2)
按照上例的方法计算特征值对应的基:
λ
=
7
:
v
1
=
[
1
0
1
]
,
v
2
=
[
−
1
2
1
0
]
\lambda=7:v_1=\begin{bmatrix}1\\0\\1\end{bmatrix},v_2=\begin{bmatrix}-\frac{1}{2}\\1\\0\end{bmatrix}
λ=7:v1=⎣⎡101⎦⎤,v2=⎣⎡−2110⎦⎤
λ = − 2 : v 3 = [ − 1 − 1 2 1 ] \lambda=-2:v_3=\begin{bmatrix}-1\\-\frac{1}{2}\\1\end{bmatrix} λ=−2:v3=⎣⎡−1−211⎦⎤
可验算 v 1 ⋅ v 2 = − 1 2 ≠ 0 v_1\cdot v_2=-\frac{1}{2}\neq 0 v1⋅v2=−21=0,虽然 v 1 v_1 v1, v 2 v_2 v2线性无关,但是不正交(可验算 v 1 v_1 v1和 v 3 v_3 v3正交, v 2 v_2 v2和 v 3 v_3 v3正交,即属于不同特征空间的特征向量是正交的)。
可求出 v 2 v_2 v2中与 v 1 v_1 v1正交的分量:
z 2 = v 2 − v 2 ⋅ v 1 v 1 ⋅ v 1 v 1 = [ − 1 2 1 0 ] − − 1 2 2 [ 1 0 1 ] = [ − 1 4 1 1 4 ] z_2=v_2-\frac{v_2\cdot v_1}{v_1\cdot v_1}v_1=\begin{bmatrix}-\frac{1}{2}\\1\\0\end{bmatrix}-\frac{-\frac{1}{2}}{2}\begin{bmatrix}1\\0\\1\end{bmatrix}=\begin{bmatrix}-\frac{1}{4}\\1\\\frac{1}{4}\end{bmatrix} z2=v2−v1⋅v1v2⋅v1v1=⎣⎡−2110⎦⎤−2−21⎣⎡101⎦⎤=⎣⎡−41141⎦⎤ (格拉姆-施密特方法)
( v 2 ⋅ v 1 v 1 ⋅ v 1 v 1 \frac{v_2\cdot v_1}{v_1\cdot v_1}v_1 v1⋅v1v2⋅v1v1为 v 2 v_2 v2在 v 1 v_1 v1上的投影)
所以 { v 1 , z 2 } \{v_1,z_2\} {v1,z2}是关于 λ = 7 \lambda=7 λ=7的特征空间的正交集。 z 2 z_2 z2是 v 1 v_1 v1和 v 2 v_2 v2的线性组合,所以 z 2 z_2 z2属于 λ = 7 \lambda=7 λ=7的特征空间(二维,基是 v 1 v_1 v1和 v 2 v_2 v2,该特征空间是 v 1 v_1 v1和 v 2 v_2 v2确定的平面),所以正交集 { v 1 , z 2 } \{v_1,z_2\} {v1,z2}是 λ = 7 \lambda=7 λ=7的特征空间的正交基。
将 v 1 v_1 v1、 z 2 z_2 z2单位化:
u 1 = [ 1 2 0 1 2 ] u_1=\begin{bmatrix}\frac{1}{\sqrt2}\\0\\\frac{1}{\sqrt2}\end{bmatrix} u1=⎣⎡21021⎦⎤
u 2 = [ − 1 18 4 18 1 18 ] u_2=\begin{bmatrix}-\frac{1}{\sqrt{18}}\\\frac{4}{\sqrt{18}}\\\frac{1}{\sqrt{18}}\end{bmatrix} u2=⎣⎢⎡−181184181⎦⎥⎤
特征值
λ
=
−
2
\lambda=-2
λ=−2对应的基:
u
3
=
[
−
2
3
−
1
3
2
3
]
u_3=\begin{bmatrix}-\frac{2}{3}\\-\frac{1}{3}\\\frac{2}{3}\end{bmatrix}
u3=⎣⎡−32−3132⎦⎤
验算: u 1 ⋅ u 2 = 0 u_1\cdot u_2=0 u1⋅u2=0, u 1 ⋅ u 3 = 0 u_1\cdot u_3=0 u1⋅u3=0, u 2 ⋅ u 3 = 0 u_2\cdot u_3=0 u2⋅u3=0
可见本例符合如果 A A A是对称矩阵,那么不同特征空间的任意两个特征向量是正交的,这个定理。
二次型(Quadratic Form)定义
R n R^n Rn上一个二次型是一个定义在 R n R^n Rn上的函数,它在向量 x x x处的值可以表示为 Q ( x ) = x T A x Q(x)=x^TAx Q(x)=xTAx,其中 A A A是一个 n × n n\times n n×n的对称矩阵。矩阵 A A A称为关于二次型的矩阵。
例1:设
x
=
[
x
1
x
2
]
x=\begin{bmatrix}x_1\\x_2\end{bmatrix}
x=[x1x2],计算下列矩阵的
x
T
A
x
x^TAx
xTAx:
A
=
[
4
0
0
3
]
A=\begin{bmatrix}4&0\\0&3\end{bmatrix}
A=[4003],
B
=
[
3
−
2
−
2
7
]
B=\begin{bmatrix}3&-2\\-2&7\end{bmatrix}
B=[3−2−27]。
解:
x T A x = [ x 1 x 2 ] [ 4 0 0 3 ] [ x 1 x 2 ] = 4 x 1 2 + 3 x 2 2 x^TAx=\begin{bmatrix}x_1&x_2\end{bmatrix}\begin{bmatrix}4&0\\0&3\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=4x_1^2+3x_2^2 xTAx=[x1x2][4003][x1x2]=4x12+3x22
x T A x = [ x 1 x 2 ] [ 3 − 2 − 2 7 ] [ x 1 x 2 ] = 3 x 1 2 − 4 x 1 x 2 + 7 x 2 2 x^TAx=\begin{bmatrix}x_1&x_2\end{bmatrix}\begin{bmatrix}3&-2\\-2&7\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=3x_1^2-4x_1x_2+7x_2^2 xTAx=[x1x2][3−2−27][x1x2]=3x12−4x1x2+7x22
例2:对于属于 R 3 R^3 R3的 x x x,设 Q ( x ) = 5 x 1 2 + 3 x 2 2 + 2 x 3 2 − x 1 x 2 + 8 x 2 x 3 Q(x)=5x_1^2+3x_2^2+2x_3^2-x_1x_2+8x_2x_3 Q(x)=5x12+3x22+2x32−x1x2+8x2x3,请写出 x T A x x^TAx xTAx形式的二次型。
解:
x 1 2 x_1^2 x12, x 2 2 x_2^2 x22, x 3 2 x_3^2 x32的系数在对角线上。为了使 A A A对称,当 i ≠ j i\neq j i=j时, x i x j x_ix_j xixj的系数要平均分配给 A A A中的 ( i , j ) (i,j) (i,j)元素。因为 Q ( x ) Q(x) Q(x)表达式中没有 x 1 x 3 x_1x_3 x1x3,所以矩阵 A A A中 ( 1 , 3 ) (1,3) (1,3)和 ( 3 , 1 ) (3,1) (3,1)元素都为0。对于 x 2 x 3 x_2x_3 x2x3其系数为8,所以矩阵 A A A中 ( 2 , 3 ) (2,3) (2,3)和 ( 3 , 12 ) (3,12) (3,12)元素都为8的一半,即4。
所以 Q ( x ) = x T A x = [ x 1 x 2 x 3 ] [ 5 − 1 2 0 − 1 2 3 4 0 4 2 ] [ x 1 x 2 x 3 ] Q(x)=x^TAx=\begin{bmatrix}x_1&x_2&x_3\end{bmatrix}\begin{bmatrix}5&-\frac{1}{2}&0\\-\frac{1}{2}&3&4\\0&4&2\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix} Q(x)=xTAx=[x1x2x3]⎣⎡5−210−2134042⎦⎤⎣⎡x1x2x3⎦⎤
验算可知上面的分解是成立的。
例3:令 Q ( x ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 Q(x)=x_1^2-8x_1x_2-5x^2_2 Q(x)=x12−8x1x2−5x22,请计算 Q ( x ) Q(x) Q(x)在 x = [ − 3 1 ] x=\begin{bmatrix}-3\\1\end{bmatrix} x=[−31], [ 2 − 2 ] \begin{bmatrix}2\\-2\end{bmatrix} [2−2]和 [ 1 − 3 ] \begin{bmatrix}1\\-3\end{bmatrix} [1−3]处的值。
解:
Q ( − 3 , 1 ) = ( − 3 ) 2 − 8 ( − 3 × 1 ) − 5 × 1 2 = 28 Q(-3,1)=(-3)^2-8(-3\times 1)-5\times1^2=28 Q(−3,1)=(−3)2−8(−3×1)−5×12=28
Q ( 2 , 2 ) = ( 2 ) 2 − 8 ( − 2 × 2 ) − 5 × 2 2 = 16 Q(2,2)=(2)^2-8(-2\times 2)-5\times2^2=16 Q(2,2)=(2)2−8(−2×2)−5×22=16
Q ( 1 , − 3 ) = ( 1 ) 2 − 8 ( 1 × ( − 3 ) ) − 5 ( − 3 ) 2 = − 20 Q(1,-3)=(1)^2-8(1\times (-3))-5(-3)^2=-20 Q(1,−3)=(1)2−8(1×(−3))−5(−3)2=−20
二次型的变量代换
方法:如果
x
x
x表示
R
n
R^n
Rn中的向量变量,那么变量代换为:
x
=
P
y
x=Py
x=Py,或
y
=
P
−
1
x
y=P^{-1}x
y=P−1x,其中
P
P
P为可逆矩阵,
y
y
y是
R
n
R^n
Rn中一个新的向量变量。这里
P
P
P的列可以确定
R
n
R^n
Rn的一个基,
y
y
y是相对于该基的向量
x
x
x的坐标向量。
使用上面变量代换(
x
=
P
y
x=Py
x=Py,或
y
=
P
−
1
x
y=P^{-1}x
y=P−1x)处理二次型
x
T
A
x
x^TAx
xTAx,则:
x
T
A
x
=
(
P
y
)
T
A
(
P
y
)
=
y
T
P
T
A
P
y
=
y
T
(
P
T
A
P
)
y
x^TAx=(Py)^TA(Py)=y^TP^TAPy=y^T(P^TAP)y
xTAx=(Py)TA(Py)=yTPTAPy=yT(PTAP)y,则新的二次型矩阵是
P
T
A
P
P^TAP
PTAP。因为矩阵
A
A
A是对称的,所以存在正交矩阵
P
P
P使得矩阵
P
T
A
P
P^TAP
PTAP是对角阵
D
D
D,所以
x
T
A
x
=
y
T
(
P
T
A
P
)
y
=
y
T
D
y
x^TAx=y^T(P^TAP)y=y^TDy
xTAx=yT(PTAP)y=yTDy。
例:将二次型 Q ( x ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 Q(x)=x_1^2-8x_1x_2-5x^2_2 Q(x)=x12−8x1x2−5x22变为一个没有交叉乘积项的二次型。
解:
二次型 Q ( x ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 Q(x)=x_1^2-8x_1x_2-5x^2_2 Q(x)=x12−8x1x2−5x22对应的矩阵为: A = [ 1 − 4 − 4 − 5 ] A=\begin{bmatrix}1&-4\\-4&-5\end{bmatrix} A=[1−4−4−5],下面将 A A A正交对角化。
A A A的特征值和对应的单位特征向量:
λ = 3 : v 1 = [ 2 5 − 2 5 ] \lambda=3:v_1=\begin{bmatrix}\frac{2}{\sqrt5}\\-\frac{2}{\sqrt5}\end{bmatrix} λ=3:v1=[52−52]
λ = − 7 : v 2 = [ 1 5 2 5 ] \lambda=-7:v_2=\begin{bmatrix}\frac{1}{\sqrt5}\\\frac{2}{\sqrt5}\end{bmatrix} λ=−7:v2=[5152]
根据定理,对应于对称矩阵的不同特征值的特征向量是正交的,且能构成 R 2 R^2 R2的一个单位正交基。下面构造对角化分解矩阵:
P = [ 2 5 1 5 − 1 5 2 5 ] P=\begin{bmatrix}\frac{2}{\sqrt5}&\frac{1}{\sqrt5}\\-\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix} P=[52−515152]
D = [ 3 0 0 − 7 ] D=\begin{bmatrix}3&0\\0&-7\end{bmatrix} D=[300−7]
使用MATLAB构造对角化分解矩阵
A =
1 -4
-4 -5
>> eig(A)
ans =
-7
3
>> [P D] = eig(A)
P =
0.4472 -0.8944
0.8944 0.4472
D =
-7 0
0 3
可见,使用MATLAB求出来的分解矩阵 P P P、 D D D和手算出来的是有区别的。
(接上面计算)
对角化分解为:
A
=
P
D
P
−
1
A=PDP^{-1}
A=PDP−1即
D
=
P
−
1
A
P
=
P
T
A
P
D=P^{-1}AP=P^TAP
D=P−1AP=PTAP
所以,对于本例,变量代换为: x = P y x=Py x=Py,其中 x = [ x 1 x 2 ] x=\begin{bmatrix}x_1\\x_2\end{bmatrix} x=[x1x2], y = [ y 1 y 2 ] y=\begin{bmatrix}y_1\\y_2\end{bmatrix} y=[y1y2]
所以,对于二次型: Q ( x ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 = x T A x = ( P y ) T A ( P y ) = y T ( P T A P ) y = y T D y = [ y 1 y 2 ] [ 3 0 0 − 7 ] [ y 1 y 2 ] = 3 y 1 2 − 7 y 2 2 Q(x)=x_1^2-8x_1x_2-5x^2_2=x^TAx=(Py)^TA(Py)=y^T(P^TAP)y=y^TDy=\begin{bmatrix}y_1&y_2\end{bmatrix}\begin{bmatrix}3&0\\0&-7\end{bmatrix}\begin{bmatrix}y_1\\y_2\end{bmatrix}=3y_1^2-7y_2^2 Q(x)=x12−8x1x2−5x22=xTAx=(Py)TA(Py)=yT(PTAP)y=yTDy=[y1y2][300−7][y1y2]=3y12−7y22
因为 x = P y x=Py x=Py,即 y = P − 1 x = P T x y=P^{-1}x=P^Tx y=P−1x=PTx,所以:
y = [ 2 5 − 1 5 1 5 2 5 ] [ x 1 x 2 ] y=\begin{bmatrix}\frac{2}{\sqrt5}&-\frac{1}{\sqrt5}\\\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix} y=[5251−5152][x1x2]
可以根据这个式子(即新的二次型,关于
y
y
y的二次型)来计算
Q
(
x
)
Q(x)
Q(x)值,例如上例中的
Q
(
−
3
,
1
)
=
(
−
3
)
2
−
8
(
−
3
×
1
)
−
5
×
1
2
=
28
Q(-3,1)=(-3)^2-8(-3\times 1)-5\times1^2=28
Q(−3,1)=(−3)2−8(−3×1)−5×12=28
使用新二次型计算:
先算向量
y
y
y:
y = [ 2 5 − 1 5 1 5 2 5 ] [ − 3 1 ] = [ − 7 5 − 1 5 ] y=\begin{bmatrix}\frac{2}{\sqrt5}&-\frac{1}{\sqrt5}\\\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix}\begin{bmatrix}-3\\1\end{bmatrix}=\begin{bmatrix}-\frac{7}{\sqrt5}\\-\frac{1}{\sqrt5}\end{bmatrix} y=[5251−5152][−31]=[−57−51]
所以, 3 y 1 2 − 7 y 2 2 = 3 × 49 5 − 7 × 1 5 = 140 5 = 28 3y_1^2-7y_2^2=3\times\frac{49}{5}-7\times\frac{1}{5}=\frac{140}{5}=28 3y12−7y22=3×549−7×51=5140=28
可见,和前面使用原二次型 Q ( x ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 Q(x)=x_1^2-8x_1x_2-5x^2_2 Q(x)=x12−8x1x2−5x22计算结果是相符的。
主轴定理
主轴定理:若 A A A为 n × n n\times n n×n的矩阵,那么存在一个正交变量代换 x = P y x=Py x=Py将二次型 x T A x x^TAx xTAx变换为不含交叉乘积项的二次型 y T D y y^TDy yTDy。这里的矩阵 P P P的列就是二次型 x T A x x^TAx xTAx的主轴,向量 y y y是向量 x x x在由这些主轴构造的 R n R^n Rn空间中的单位正交基下的坐标向量。
主轴是标准图像经过旋转后的所到的位置的标准图形的坐标轴。例如,上例中, Q ( − 3 , 1 ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 = 28 Q(-3,1)=x_1^2-8x_1x_2-5x^2_2=28 Q(−3,1)=x12−8x1x2−5x22=28是一个中心在原点,的椭圆,其长轴和短轴不在 x 1 x_1 x1和 x 2 x_2 x2上,而是分别在 y 1 y_1 y1和 y 2 y_2 y2上,而 y 1 y_1 y1的正方向,是对应的 P P P矩阵的第一列的方向, y 2 y_2 y2的正方向,是对应的 P P P矩阵的第二列的方向。
上例总, P = [ 2 5 1 5 − 1 5 2 5 ] P=\begin{bmatrix}\frac{2}{\sqrt5}&\frac{1}{\sqrt5}\\-\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix} P=[52−515152],所以 y 1 y_1 y1方向为 ( 2 , − 1 ) (2,-1) (2,−1), y 2 y_2 y2方向为 ( 1 , 2 ) (1,2) (1,2)。
正定二次型、正定矩阵
正定二次型定义:如果一个二次型 Q Q Q对所有的 x ≠ 0 x\neq0 x=0,都有 Q ( x ) > 0 Q(x)>0 Q(x)>0,则此二次型是正定的(positive definite);如果一个二次型 Q Q Q对所有的 x ≠ 0 x\neq0 x=0,都有 Q ( x ) < 0 Q(x)<0 Q(x)<0,则此二次型是负定的(negative definite);如果 Q ( x ) Q(x) Q(x)既有正值又有负值,那么是不定的(indefinite)。如果对所有 x x x有 Q ( x ) ≥ 0 Q(x)\ge0 Q(x)≥0,则 Q Q Q是半正定的(positive semidefinite);如果对所有 x x x有 Q ( x ) ≤ 0 Q(x)\le0 Q(x)≤0,则 Q Q Q是半负定的(negative semidefinite)。
定理:如果矩阵 A A A是 n × n n\times n n×n的对称矩阵,其二次型 x T A x x^TAx xTAx是正定的,当且仅当 A A A的特征值都是正数;其二次型 x T A x x^TAx xTAx是负定的,当且仅当 A A A的特征值都是负数;其二次型 x T A x x^TAx xTAx是不定的,当且仅当 A A A的特征值有正有负。如果这个对称矩阵 A A A的二次型是正定的,那这个矩阵 A A A可以称为正定矩阵。负定矩阵和不定矩阵的定义可类推。
求二次型最值
背景:对于
R
n
R^n
Rn中的一个单位向量
x
x
x的模可以用以下等价的形式描述:
∣
∣
x
∣
∣
=
1
||x||=1
∣∣x∣∣=1,
∣
∣
x
∣
∣
2
=
1
||x||^2=1
∣∣x∣∣2=1,
x
T
x
=
1
x^Tx=1
xTx=1和
x
1
2
+
⋯
+
x
n
2
=
1
x^2_1+\cdots+x^2_n=1
x12+⋯+xn2=1。但是在实际应用中,常用
x
T
x
=
1
x^Tx=1
xTx=1的展开式
x
1
2
+
⋯
+
x
n
2
=
1
x^2_1+\cdots+x^2_n=1
x12+⋯+xn2=1来描述。当一个二次型没有交叉乘积项的时候,容易在限制条件
x
T
x
=
1
x^Tx=1
xTx=1下求出二次型
Q
(
x
)
Q(x)
Q(x)的最大和最小值。
例1:求 Q ( x ) = 9 x 1 2 + 4 x 2 2 + 3 x 3 2 Q(x)=9x_1^2+4x_2^2+3x_3^2 Q(x)=9x12+4x22+3x32在限制条件 x T x = 1 x^Tx=1 xTx=1下的最大值和最小值。
解:
x
1
2
x_1^2
x12和
x
2
2
x_2^2
x22都是非负的,所以对
x
1
x_1
x1、
x
2
x_2
x2进行放缩有:
4 x 2 2 ≤ 9 x 2 2 4x_2^2\le9x_2^2 4x22≤9x22
3 x 3 2 ≤ 9 x 3 2 3x_3^2\le9x_3^2 3x32≤9x32
所以
Q ( x ) = 9 x 1 2 + 4 x 2 2 + 3 x 3 2 ≤ 9 x 1 2 + 9 x 2 2 + 9 x 3 2 = 9 ( x 1 2 + x 2 2 + x 3 2 ) = 9 Q(x)=9x_1^2+4x_2^2+3x_3^2\le9x_1^2+9x_2^2+9x_3^2=9(x_1^2+x_2^2+x_3^2)=9 Q(x)=9x12+4x22+3x32≤9x12+9x22+9x32=9(x12+x22+x32)=9
所以,当 x x x为单位向量时, Q ( x ) Q(x) Q(x)的最大值不超过9(当 x = ( 1 , 0 , 0 ) x=(1,0,0) x=(1,0,0)时,取最大值9),所以 Q ( x ) = 9 Q(x)=9 Q(x)=9是在限制条件 x T x = 1 x^Tx=1 xTx=1下的最大值。
下面求最小值:
9 x 1 2 ≥ 3 x 1 2 9x_1^2\ge3x_1^2 9x12≥3x12
4 x 2 2 ≥ 3 x 1 2 4x_2^2\ge3x_1^2 4x22≥3x12
所以:
Q ( x ) = 9 x 1 2 + 4 x 2 2 + 3 x 3 2 ≥ 3 x 1 2 + 3 x 2 2 + 3 x 3 2 = 3 ( x 1 2 + x 2 2 + x 3 2 ) = 3 Q(x)=9x_1^2+4x_2^2+3x_3^2\ge3x_1^2+3x_2^2+3x_3^2=3(x_1^2+x_2^2+x_3^2)=3 Q(x)=9x12+4x22+3x32≥3x12+3x22+3x32=3(x12+x22+x32)=3
即当当 x = ( 0 , 0 , 1 ) x=(0,0,1) x=(0,0,1)时, Q ( x ) = 3 Q(x)=3 Q(x)=3是在限制条件 x T x = 1 x^Tx=1 xTx=1下的最小值。
总结:在本例中,二次型 Q ( x ) = 9 x 1 2 + 4 x 2 2 + 3 x 3 2 Q(x)=9x_1^2+4x_2^2+3x_3^2 Q(x)=9x12+4x22+3x32对应的矩阵的特征值是9、4、3,且最大、最小特征值分别等于在限制条件 x T x = 1 x^Tx=1 xTx=1下的二次型 Q ( x ) = x T A x Q(x)=x^TAx Q(x)=xTAx的最大、最小值。本结论对任何二次型都成立。
例2: A = [ 3 0 0 7 ] A=\begin{bmatrix}3&0\\0&7\end{bmatrix} A=[3007],当 x x x属于 R 2 R^2 R2时, Q ( x ) = x T A x Q(x)=x^TAx Q(x)=xTAx。
可知矩阵 A A A的特征值为3和7。由例1可知,最大、最小特征值分别等于在限制条件 x T x = 1 x^Tx=1 xTx=1下的 Q ( x ) = x T A x Q(x)=x^TAx Q(x)=xTAx的最大、最小值,所以曲线上的最高点(因为对称,所以有2个最高点2个最低点)在 x 1 x 2 x_1x_2 x1x2平面上7个单位处,对应于特征向量 x = ( 0 , ± 1 ) x=(0,\pm1) x=(0,±1);曲线最低点在在 x 1 x 2 x_1x_2 x1x2平面上3个单位处,对应特征向量 x = ( ± 1 , 0 ) x=(\pm1,0) x=(±1,0)
例3: A = [ 3 2 1 2 3 1 1 1 4 ] A=\begin{bmatrix}3&2&1\\2&3&1\\1&1&4\end{bmatrix} A=⎣⎡321231114⎦⎤,求二次型 x T A x x^TAx xTAx在限制条件 x T x = 1 x^Tx=1 xTx=1下的最大值和可以取到该最大值的单位向量。
解:
特征方程: 0 = d e t ( A − λ I ) = − λ 3 + 10 λ 2 − 27 λ + 18 = − ( λ − 6 ) ( λ − 3 ) ( λ − 1 ) 0=det(A-\lambda I)=-\lambda ^3+10\lambda^2-27\lambda+18=-(\lambda-6)(\lambda-3)(\lambda-1) 0=det(A−λI)=−λ3+10λ2−27λ+18=−(λ−6)(λ−3)(λ−1)
所以,特征值为1、3、6,最大特征值为6.
根据定理,二次型 x T A x x^TAx xTAx在限制条件 x T x = 1 x^Tx=1 xTx=1下的最大值可以在最大的特征向量,即6,对应的单位特征向量 x x x处取得:
解 ( A − λ I ) = ( A − 6 I ) x = 0 (A-\lambda I)=(A-6I)x=0 (A−λI)=(A−6I)x=0
[ − 3 2 1 0 2 − 3 1 0 1 1 − 2 0 ] → [ 1 0 − 1 0 0 1 − 1 0 0 0 0 0 ] \begin{bmatrix}-3&2&1&0\\2&-3&1&0\\1&1&-2&0\end{bmatrix}\rightarrow \begin{bmatrix}1&0&-1&0\\0&1&-1&0\\0&0&0&0\end{bmatrix} ⎣⎡−3212−3111−2000⎦⎤→⎣⎡100010−1−10000⎦⎤
通解: x = [ x 1 x 2 x 3 ] = x 3 [ 1 1 1 ] x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=x_3\begin{bmatrix}1\\1\\1\end{bmatrix} x=⎣⎡x1x2x3⎦⎤=x3⎣⎡111⎦⎤
所以 λ = 6 \lambda =6 λ=6对应的特征向量为 v 1 = [ 1 1 1 ] v_1=\begin{bmatrix}1\\1\\1\end{bmatrix} v1=⎣⎡111⎦⎤,
单位化: u 1 = [ 1 3 1 3 1 3 ] u_1=\begin{bmatrix}\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\end{bmatrix} u1=⎣⎢⎡313131⎦⎥⎤
总结:本例用到的定理:如果 A A A是对称矩阵, m m m和 M M M分别为在限制条件 x T x = 1 x^Tx=1 xTx=1下的二次型 Q ( x ) = x T A x Q(x)=x^TAx Q(x)=xTAx的最小、最大值,那么 m m m和 M M M也同时分别为矩阵 A A A的最小、最大特征值。如果 x x x是对应于 M M M的单位特征向量 u 1 u_1 u1,那么 x T A x = M x^TAx=M xTAx=M;如果 x x x是对应于 m m m的单位特征向量 u 2 u_2 u2,那么 x T A x = m x^TAx=m xTAx=m。
例4:求 9 x 1 2 + 4 x 2 2 + 3 x 3 2 9x_1^2+4x_2^2+3x_3^2 9x12+4x22+3x32的最大值,限制条件为 x T x = 1 x^Tx=1 xTx=1和 x T u 1 = 0 x^Tu_1=0 xTu1=0,其中 u 1 = ( 1 , 0 , 0 ) u_1=(1,0,0) u1=(1,0,0)。
解:
由观测可知,二次型
9
x
1
2
+
4
x
2
2
+
3
x
3
2
9x_1^2+4x_2^2+3x_3^2
9x12+4x22+3x32对应的矩阵的最大特征值是9,
由例1知, Q ( x ) Q(x) Q(x)的最大值不超过9(当 x = ( 1 , 0 , 0 ) x=(1,0,0) x=(1,0,0)时,取最大值9),所以 Q ( x ) = 9 Q(x)=9 Q(x)=9是在限制条件 x T x = 1 x^Tx=1 xTx=1下的最大值,最大特征值9对应单位特征向量 u 1 = ( 1 , 0 , 0 ) u_1=(1,0,0) u1=(1,0,0)。
由限制条件 x T u 1 = 0 x^Tu_1=0 xTu1=0得:
[ x 1 x 2 x 3 ] [ 1 0 0 ] = x 1 = 0 \begin{bmatrix}x_1&x_2&x_3\end{bmatrix}\begin{bmatrix}1\\0\\0\end{bmatrix}=x_1=0 [x1x2x3]⎣⎡100⎦⎤=x1=0
这就意味着,对于单位向量 u 1 = [ 1 0 0 ] u_1=\begin{bmatrix}1\\0\\0\end{bmatrix} u1=⎣⎡100⎦⎤,有 x 2 2 + x 3 3 = 1 x_2^2+x_3^3=1 x22+x33=1
即
Q
(
x
)
=
9
x
1
2
+
4
x
2
2
+
3
x
3
2
=
4
x
2
2
+
3
x
3
2
≤
4
x
2
2
+
4
x
3
2
=
4
Q(x)=9x_1^2+4x_2^2+3x_3^2=4x_2^2+3x_3^2\le4x_2^2+4x_3^2=4
Q(x)=9x12+4x22+3x32=4x22+3x32≤4x22+4x32=4
在这样的限制条件下,二次型最大值不超过4,这个最大值可能在 x = ( 0 , 1 , 0 ) x=(0,1,0) x=(0,1,0)处取得,而这是该二次型第二大的特征向量。
总结:如果限制条件为 x T x = 1 x^Tx=1 xTx=1和 x T u 1 = 0 x^Tu_1=0 xTu1=0( u 1 u_1 u1为矩阵 A A A最大特征值对应的单位特征向量),二次型 x T A x x^TAx xTAx的最大值为 A A A第二大的特征值,且在对应于第二大特征值的特征向量 u 2 u_2 u2处取得。