矩阵的对角化(Diagonalization),二次型(Quadratic Form),求二次型的最值,二次型最值与特征值的关系

对称矩阵的对角化

  对称矩阵:如果矩阵 A A A满足 A T = A A^T=A AT=A,那么 A A A为对称矩阵,对称矩阵一定是方阵。

正交对角化

  如果一个矩阵 A A A可正交对角化,那么存在一个正交矩阵 P P P(根据正交矩阵的定义可知, P − 1 = P T P^{-1}=P^T P1=PT)和一个对角阵,使得: A = P D P T = P D P − 1 A=PDP^T=PDP^{-1} A=PDPT=PDP1
  定理:一个 n × n n\times n n×n的矩阵 A A A可以正交对角化的充要条件是 A A A为对称矩阵。

例1:判断矩阵 A = [ 6 − 2 − 1 − 2 6 − 1 − 1 − 1 5 ] A=\begin{bmatrix}6&-2&-1\\-2&6&-1\\-1&-1&5\end{bmatrix} A=621261115是否可以对角化,如果可以请对其进行对角化。

解:
A A A的特征方程: 0 = d e t ( A − λ I ) = − λ 3 + 17 λ 2 − 90 λ + 144 = − ( λ − 8 ) ( λ − 6 ) ( λ − 3 ) 0=det(A-\lambda I)=-\lambda ^3+17\lambda^2-90\lambda+144=-(\lambda-8)(\lambda-6)(\lambda-3) 0=det(AλI)=λ3+17λ290λ+144=(λ8)(λ6)(λ3)

特征值为3,6,8.

λ = 8 \lambda =8 λ=8对应的基:
化简方程 ( A − λ I ) x = ( A − 8 I ) x = 0 (A-\lambda I)x=(A-8 I)x=0 (AλI)x=(A8I)x=0对应的增广矩阵:

[ 6 − 8 − 2 − 1 0 − 2 6 − 8 − 1 0 − 1 − 1 5 − 8 0 ] → [ 1 1 0 0 0 0 1 0 0 0 0 0 ] \begin{bmatrix}6-8&-2&-1&0\\-2&6-8&-1&0\\-1&-1&5-8&0\end{bmatrix}\rightarrow \begin{bmatrix}1&1&0&0\\0&0&1&0\\0&0&0&0\end{bmatrix} 682126811158000100100010000

即通解为: x = [ x 1 x 2 x 3 ] = x 2 [ − 1 1 0 ] x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=x_2\begin{bmatrix}-1\\1\\0\end{bmatrix} x=x1x2x3=x2110

所以 λ = 8 \lambda =8 λ=8对应的基为 v 1 = [ − 1 1 0 ] v_1=\begin{bmatrix}-1\\1\\0\end{bmatrix} v1=110;同理,求得
λ = 6 \lambda =6 λ=6对应的基为 v 2 = [ − 1 − 1 2 ] v_2=\begin{bmatrix}-1\\-1\\2\end{bmatrix} v2=112 λ = 3 \lambda =3 λ=3对应的基为 v 3 = [ 1 1 1 ] v_3=\begin{bmatrix}1\\1\\1\end{bmatrix} v3=111
向量 v 1 v_1 v1 v 2 v_2 v2 v 3 v_3 v3形成了 R 3 R^3 R3上一个基,因为 v 1 T v 2 = 0 v_1^Tv_2=0 v1Tv2=0 v 1 T v 3 = 0 v_1^Tv_3=0 v1Tv3=0 v 2 T v 3 = 0 v_2^Tv_3=0 v2Tv3=0,所以 { v 1 , v 2 , v 3 } \{v_1,v_2,v_3\} {v1,v2,v3} R 3 R^3 R3上一个正交基。

单位化后得到:(注:上面的 v 1 , v 2 , v 3 v_1,v_2,v_3 v1,v2,v3 A A A的3个线性无关的特征向量,下面 u 1 , u 2 , u 3 u_1,u_2,u_3 u1,u2,u3是单位特征向量)

u 1 = [ − 1 2 1 2 0 ] u_1=\begin{bmatrix}-\frac{1}{\sqrt2}\\\frac{1}{\sqrt2}\\0\end{bmatrix} u1=2 12 10

u 2 = [ − 1 6 − 1 6 2 6 ] u_2=\begin{bmatrix}-\frac{1}{\sqrt6}\\-\frac{1}{\sqrt6}\\\frac{2}{\sqrt6}\end{bmatrix} u2=6 16 16 2

u 3 = [ 1 3 1 3 1 3 ] u_3=\begin{bmatrix}\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\end{bmatrix} u3=3 13 13 1

所以可以得到矩阵 P = [ u 1 u 2 u 3 ] = [ − 1 2 − 1 6 1 3 − 1 2 − 1 6 1 3 0 2 6 1 3 ] P=[u_1\quad u_2\quad u_3]=\begin{bmatrix}-\frac{1}{\sqrt2}&-\frac{1}{\sqrt6}&\frac{1}{\sqrt3}\\-\frac{1}{\sqrt2}&-\frac{1}{\sqrt6}&\frac{1}{\sqrt3}&\\0&\frac{2}{\sqrt6}&\frac{1}{\sqrt3}\end{bmatrix} P=[u1u2u3]=2 12 106 16 16 23 13 13 1

所以 D = [ 8 0 0 0 6 0 0 0 3 ] D=\begin{bmatrix}8&0&0\\0&6&0\\0&0&3\end{bmatrix} D=800060003

到此, A A A对角化完成: A = P D P − 1 A=PDP^{-1} A=PDP1

  因为 P P P是方阵,且有单位正交列,所以 P P P是正交矩阵,且 P − 1 = P T P^{-1}=P^T P1=PT,因为正交矩阵的定义是,该矩阵可逆且有其转置等于其逆。

  总结:如果 A A A是对称矩阵,那么不同特征空间的任意两个特征向量是正交的。例如本例中,特征向量 v 1 = [ − 1 1 0 ] v_1=\begin{bmatrix}-1\\1\\0\end{bmatrix} v1=110对应的特征空间是过原点及点 ( − 1 , 1 , 0 ) (-1,1,0) (1,1,0)的直线,该特征空间由零向量和所有对应于 λ = 8 \lambda =8 λ=8这个特征值的特征向量(即 v 1 v_1 v1的所有倍数)构成。

例2:将矩阵 A = [ 3 − 2 4 − 2 6 2 4 2 3 ] A=\begin{bmatrix}3&-2&4\\-2&6&2\\4&2&3\end{bmatrix} A=324262423正交对角化。

解:

特征方程: 0 = d e t ( A − λ I ) = − λ 3 + 12 λ 2 − 21 λ − 98 = − ( λ − 7 ) 2 ( λ + 2 ) 0=det(A-\lambda I)=-\lambda ^3+12\lambda^2-21\lambda-98=-(\lambda-7)^2(\lambda+2) 0=det(AλI)=λ3+12λ221λ98=(λ7)2(λ+2)

按照上例的方法计算特征值对应的基:
λ = 7 : v 1 = [ 1 0 1 ] , v 2 = [ − 1 2 1 0 ] \lambda=7:v_1=\begin{bmatrix}1\\0\\1\end{bmatrix},v_2=\begin{bmatrix}-\frac{1}{2}\\1\\0\end{bmatrix} λ=7:v1=101,v2=2110

λ = − 2 : v 3 = [ − 1 − 1 2 1 ] \lambda=-2:v_3=\begin{bmatrix}-1\\-\frac{1}{2}\\1\end{bmatrix} λ=2:v3=1211

可验算 v 1 ⋅ v 2 = − 1 2 ≠ 0 v_1\cdot v_2=-\frac{1}{2}\neq 0 v1v2=21=0,虽然 v 1 v_1 v1 v 2 v_2 v2线性无关,但是不正交(可验算 v 1 v_1 v1 v 3 v_3 v3正交, v 2 v_2 v2 v 3 v_3 v3正交,即属于不同特征空间的特征向量是正交的)。

可求出 v 2 v_2 v2中与 v 1 v_1 v1正交的分量:

z 2 = v 2 − v 2 ⋅ v 1 v 1 ⋅ v 1 v 1 = [ − 1 2 1 0 ] − − 1 2 2 [ 1 0 1 ] = [ − 1 4 1 1 4 ] z_2=v_2-\frac{v_2\cdot v_1}{v_1\cdot v_1}v_1=\begin{bmatrix}-\frac{1}{2}\\1\\0\end{bmatrix}-\frac{-\frac{1}{2}}{2}\begin{bmatrix}1\\0\\1\end{bmatrix}=\begin{bmatrix}-\frac{1}{4}\\1\\\frac{1}{4}\end{bmatrix} z2=v2v1v1v2v1v1=2110221101=41141 (格拉姆-施密特方法)

v 2 ⋅ v 1 v 1 ⋅ v 1 v 1 \frac{v_2\cdot v_1}{v_1\cdot v_1}v_1 v1v1v2v1v1 v 2 v_2 v2 v 1 v_1 v1上的投影)

  所以 { v 1 , z 2 } \{v_1,z_2\} {v1,z2}是关于 λ = 7 \lambda=7 λ=7的特征空间的正交集。 z 2 z_2 z2 v 1 v_1 v1 v 2 v_2 v2的线性组合,所以 z 2 z_2 z2属于 λ = 7 \lambda=7 λ=7的特征空间(二维,基是 v 1 v_1 v1 v 2 v_2 v2,该特征空间是 v 1 v_1 v1 v 2 v_2 v2确定的平面),所以正交集 { v 1 , z 2 } \{v_1,z_2\} {v1,z2} λ = 7 \lambda=7 λ=7的特征空间的正交基。

v 1 v_1 v1 z 2 z_2 z2单位化:

u 1 = [ 1 2 0 1 2 ] u_1=\begin{bmatrix}\frac{1}{\sqrt2}\\0\\\frac{1}{\sqrt2}\end{bmatrix} u1=2 102 1

u 2 = [ − 1 18 4 18 1 18 ] u_2=\begin{bmatrix}-\frac{1}{\sqrt{18}}\\\frac{4}{\sqrt{18}}\\\frac{1}{\sqrt{18}}\end{bmatrix} u2=18 118 418 1

特征值 λ = − 2 \lambda=-2 λ=2对应的基:
u 3 = [ − 2 3 − 1 3 2 3 ] u_3=\begin{bmatrix}-\frac{2}{3}\\-\frac{1}{3}\\\frac{2}{3}\end{bmatrix} u3=323132

验算: u 1 ⋅ u 2 = 0 u_1\cdot u_2=0 u1u2=0 u 1 ⋅ u 3 = 0 u_1\cdot u_3=0 u1u3=0 u 2 ⋅ u 3 = 0 u_2\cdot u_3=0 u2u3=0

可见本例符合如果 A A A是对称矩阵,那么不同特征空间的任意两个特征向量是正交的,这个定理。

二次型(Quadratic Form)定义

   R n R^n Rn上一个二次型是一个定义在 R n R^n Rn上的函数,它在向量 x x x处的值可以表示为 Q ( x ) = x T A x Q(x)=x^TAx Q(x)=xTAx,其中 A A A是一个 n × n n\times n n×n的对称矩阵。矩阵 A A A称为关于二次型的矩阵。

例1:设 x = [ x 1 x 2 ] x=\begin{bmatrix}x_1\\x_2\end{bmatrix} x=[x1x2],计算下列矩阵的 x T A x x^TAx xTAx
A = [ 4 0 0 3 ] A=\begin{bmatrix}4&0\\0&3\end{bmatrix} A=[4003] B = [ 3 − 2 − 2 7 ] B=\begin{bmatrix}3&-2\\-2&7\end{bmatrix} B=[3227]

解:

x T A x = [ x 1 x 2 ] [ 4 0 0 3 ] [ x 1 x 2 ] = 4 x 1 2 + 3 x 2 2 x^TAx=\begin{bmatrix}x_1&x_2\end{bmatrix}\begin{bmatrix}4&0\\0&3\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=4x_1^2+3x_2^2 xTAx=[x1x2][4003][x1x2]=4x12+3x22

x T A x = [ x 1 x 2 ] [ 3 − 2 − 2 7 ] [ x 1 x 2 ] = 3 x 1 2 − 4 x 1 x 2 + 7 x 2 2 x^TAx=\begin{bmatrix}x_1&x_2\end{bmatrix}\begin{bmatrix}3&-2\\-2&7\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=3x_1^2-4x_1x_2+7x_2^2 xTAx=[x1x2][3227][x1x2]=3x124x1x2+7x22

例2:对于属于 R 3 R^3 R3 x x x,设 Q ( x ) = 5 x 1 2 + 3 x 2 2 + 2 x 3 2 − x 1 x 2 + 8 x 2 x 3 Q(x)=5x_1^2+3x_2^2+2x_3^2-x_1x_2+8x_2x_3 Q(x)=5x12+3x22+2x32x1x2+8x2x3,请写出 x T A x x^TAx xTAx形式的二次型。

解:

x 1 2 x_1^2 x12 x 2 2 x_2^2 x22 x 3 2 x_3^2 x32的系数在对角线上。为了使 A A A对称,当 i ≠ j i\neq j i=j时, x i x j x_ix_j xixj的系数要平均分配给 A A A中的 ( i , j ) (i,j) (i,j)元素。因为 Q ( x ) Q(x) Q(x)表达式中没有 x 1 x 3 x_1x_3 x1x3,所以矩阵 A A A ( 1 , 3 ) (1,3) (1,3) ( 3 , 1 ) (3,1) (3,1)元素都为0。对于 x 2 x 3 x_2x_3 x2x3其系数为8,所以矩阵 A A A ( 2 , 3 ) (2,3) (2,3) ( 3 , 12 ) (3,12) (3,12)元素都为8的一半,即4。

所以 Q ( x ) = x T A x = [ x 1 x 2 x 3 ] [ 5 − 1 2 0 − 1 2 3 4 0 4 2 ] [ x 1 x 2 x 3 ] Q(x)=x^TAx=\begin{bmatrix}x_1&x_2&x_3\end{bmatrix}\begin{bmatrix}5&-\frac{1}{2}&0\\-\frac{1}{2}&3&4\\0&4&2\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix} Q(x)=xTAx=[x1x2x3]52102134042x1x2x3

验算可知上面的分解是成立的。

例3:令 Q ( x ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 Q(x)=x_1^2-8x_1x_2-5x^2_2 Q(x)=x128x1x25x22,请计算 Q ( x ) Q(x) Q(x) x = [ − 3 1 ] x=\begin{bmatrix}-3\\1\end{bmatrix} x=[31] [ 2 − 2 ] \begin{bmatrix}2\\-2\end{bmatrix} [22] [ 1 − 3 ] \begin{bmatrix}1\\-3\end{bmatrix} [13]处的值。

解:

Q ( − 3 , 1 ) = ( − 3 ) 2 − 8 ( − 3 × 1 ) − 5 × 1 2 = 28 Q(-3,1)=(-3)^2-8(-3\times 1)-5\times1^2=28 Q(3,1)=(3)28(3×1)5×12=28

Q ( 2 , 2 ) = ( 2 ) 2 − 8 ( − 2 × 2 ) − 5 × 2 2 = 16 Q(2,2)=(2)^2-8(-2\times 2)-5\times2^2=16 Q(2,2)=(2)28(2×2)5×22=16

Q ( 1 , − 3 ) = ( 1 ) 2 − 8 ( 1 × ( − 3 ) ) − 5 ( − 3 ) 2 = − 20 Q(1,-3)=(1)^2-8(1\times (-3))-5(-3)^2=-20 Q(1,3)=(1)28(1×(3))5(3)2=20

二次型的变量代换

  方法:如果 x x x表示 R n R^n Rn中的向量变量,那么变量代换为: x = P y x=Py x=Py,或 y = P − 1 x y=P^{-1}x y=P1x,其中 P P P为可逆矩阵, y y y R n R^n Rn中一个新的向量变量。这里 P P P的列可以确定 R n R^n Rn的一个基, y y y是相对于该基的向量 x x x的坐标向量。
使用上面变量代换( x = P y x=Py x=Py,或 y = P − 1 x y=P^{-1}x y=P1x)处理二次型 x T A x x^TAx xTAx,则: x T A x = ( P y ) T A ( P y ) = y T P T A P y = y T ( P T A P ) y x^TAx=(Py)^TA(Py)=y^TP^TAPy=y^T(P^TAP)y xTAx=(Py)TA(Py)=yTPTAPy=yT(PTAP)y,则新的二次型矩阵是 P T A P P^TAP PTAP。因为矩阵 A A A是对称的,所以存在正交矩阵 P P P使得矩阵 P T A P P^TAP PTAP是对角阵 D D D,所以 x T A x = y T ( P T A P ) y = y T D y x^TAx=y^T(P^TAP)y=y^TDy xTAx=yT(PTAP)y=yTDy

例:将二次型 Q ( x ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 Q(x)=x_1^2-8x_1x_2-5x^2_2 Q(x)=x128x1x25x22变为一个没有交叉乘积项的二次型。

解:

二次型 Q ( x ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 Q(x)=x_1^2-8x_1x_2-5x^2_2 Q(x)=x128x1x25x22对应的矩阵为: A = [ 1 − 4 − 4 − 5 ] A=\begin{bmatrix}1&-4\\-4&-5\end{bmatrix} A=[1445],下面将 A A A正交对角化。

A A A的特征值和对应的单位特征向量:

λ = 3 : v 1 = [ 2 5 − 2 5 ] \lambda=3:v_1=\begin{bmatrix}\frac{2}{\sqrt5}\\-\frac{2}{\sqrt5}\end{bmatrix} λ=3:v1=[5 25 2]

λ = − 7 : v 2 = [ 1 5 2 5 ] \lambda=-7:v_2=\begin{bmatrix}\frac{1}{\sqrt5}\\\frac{2}{\sqrt5}\end{bmatrix} λ=7:v2=[5 15 2]

根据定理,对应于对称矩阵的不同特征值的特征向量是正交的,且能构成 R 2 R^2 R2的一个单位正交基。下面构造对角化分解矩阵:

P = [ 2 5 1 5 − 1 5 2 5 ] P=\begin{bmatrix}\frac{2}{\sqrt5}&\frac{1}{\sqrt5}\\-\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix} P=[5 25 15 15 2]

D = [ 3 0 0 − 7 ] D=\begin{bmatrix}3&0\\0&-7\end{bmatrix} D=[3007]

使用MATLAB构造对角化分解矩阵

A =

     1    -4
    -4    -5

>> eig(A)

ans =

    -7
     3

>> [P D] = eig(A)

P =

    0.4472   -0.8944
    0.8944    0.4472


D =

    -7     0
     0     3

  可见,使用MATLAB求出来的分解矩阵 P P P D D D和手算出来的是有区别的。

(接上面计算)
对角化分解为: A = P D P − 1 A=PDP^{-1} A=PDP1 D = P − 1 A P = P T A P D=P^{-1}AP=P^TAP D=P1AP=PTAP

所以,对于本例,变量代换为: x = P y x=Py x=Py,其中 x = [ x 1 x 2 ] x=\begin{bmatrix}x_1\\x_2\end{bmatrix} x=[x1x2] y = [ y 1 y 2 ] y=\begin{bmatrix}y_1\\y_2\end{bmatrix} y=[y1y2]

所以,对于二次型: Q ( x ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 = x T A x = ( P y ) T A ( P y ) = y T ( P T A P ) y = y T D y = [ y 1 y 2 ] [ 3 0 0 − 7 ] [ y 1 y 2 ] = 3 y 1 2 − 7 y 2 2 Q(x)=x_1^2-8x_1x_2-5x^2_2=x^TAx=(Py)^TA(Py)=y^T(P^TAP)y=y^TDy=\begin{bmatrix}y_1&y_2\end{bmatrix}\begin{bmatrix}3&0\\0&-7\end{bmatrix}\begin{bmatrix}y_1\\y_2\end{bmatrix}=3y_1^2-7y_2^2 Q(x)=x128x1x25x22=xTAx=(Py)TA(Py)=yT(PTAP)y=yTDy=[y1y2][3007][y1y2]=3y127y22

因为 x = P y x=Py x=Py,即 y = P − 1 x = P T x y=P^{-1}x=P^Tx y=P1x=PTx,所以:

y = [ 2 5 − 1 5 1 5 2 5 ] [ x 1 x 2 ] y=\begin{bmatrix}\frac{2}{\sqrt5}&-\frac{1}{\sqrt5}\\\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix} y=[5 25 15 15 2][x1x2]

可以根据这个式子(即新的二次型,关于 y y y的二次型)来计算 Q ( x ) Q(x) Q(x)值,例如上例中的
Q ( − 3 , 1 ) = ( − 3 ) 2 − 8 ( − 3 × 1 ) − 5 × 1 2 = 28 Q(-3,1)=(-3)^2-8(-3\times 1)-5\times1^2=28 Q(3,1)=(3)28(3×1)5×12=28

使用新二次型计算:
先算向量 y y y

y = [ 2 5 − 1 5 1 5 2 5 ] [ − 3 1 ] = [ − 7 5 − 1 5 ] y=\begin{bmatrix}\frac{2}{\sqrt5}&-\frac{1}{\sqrt5}\\\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix}\begin{bmatrix}-3\\1\end{bmatrix}=\begin{bmatrix}-\frac{7}{\sqrt5}\\-\frac{1}{\sqrt5}\end{bmatrix} y=[5 25 15 15 2][31]=[5 75 1]

所以, 3 y 1 2 − 7 y 2 2 = 3 × 49 5 − 7 × 1 5 = 140 5 = 28 3y_1^2-7y_2^2=3\times\frac{49}{5}-7\times\frac{1}{5}=\frac{140}{5}=28 3y127y22=3×5497×51=5140=28

可见,和前面使用原二次型 Q ( x ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 Q(x)=x_1^2-8x_1x_2-5x^2_2 Q(x)=x128x1x25x22计算结果是相符的。

主轴定理

  主轴定理:若 A A A n × n n\times n n×n的矩阵,那么存在一个正交变量代换 x = P y x=Py x=Py将二次型 x T A x x^TAx xTAx变换为不含交叉乘积项的二次型 y T D y y^TDy yTDy。这里的矩阵 P P P的列就是二次型 x T A x x^TAx xTAx的主轴,向量 y y y是向量 x x x在由这些主轴构造的 R n R^n Rn空间中的单位正交基下的坐标向量。

  主轴是标准图像经过旋转后的所到的位置的标准图形的坐标轴。例如,上例中, Q ( − 3 , 1 ) = x 1 2 − 8 x 1 x 2 − 5 x 2 2 = 28 Q(-3,1)=x_1^2-8x_1x_2-5x^2_2=28 Q(3,1)=x128x1x25x22=28是一个中心在原点,的椭圆,其长轴和短轴不在 x 1 x_1 x1 x 2 x_2 x2上,而是分别在 y 1 y_1 y1 y 2 y_2 y2上,而 y 1 y_1 y1的正方向,是对应的 P P P矩阵的第一列的方向, y 2 y_2 y2的正方向,是对应的 P P P矩阵的第二列的方向。

上例总, P = [ 2 5 1 5 − 1 5 2 5 ] P=\begin{bmatrix}\frac{2}{\sqrt5}&\frac{1}{\sqrt5}\\-\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix} P=[5 25 15 15 2],所以 y 1 y_1 y1方向为 ( 2 , − 1 ) (2,-1) (2,1) y 2 y_2 y2方向为 ( 1 , 2 ) (1,2) (1,2)

正定二次型、正定矩阵

  正定二次型定义:如果一个二次型 Q Q Q对所有的 x ≠ 0 x\neq0 x=0,都有 Q ( x ) > 0 Q(x)>0 Q(x)>0,则此二次型是正定的(positive definite);如果一个二次型 Q Q Q对所有的 x ≠ 0 x\neq0 x=0,都有 Q ( x ) < 0 Q(x)<0 Q(x)<0,则此二次型是负定的(negative definite);如果 Q ( x ) Q(x) Q(x)既有正值又有负值,那么是不定的(indefinite)。如果对所有 x x x Q ( x ) ≥ 0 Q(x)\ge0 Q(x)0,则 Q Q Q是半正定的(positive semidefinite);如果对所有 x x x Q ( x ) ≤ 0 Q(x)\le0 Q(x)0,则 Q Q Q是半负定的(negative semidefinite)。

  定理:如果矩阵 A A A n × n n\times n n×n的对称矩阵,其二次型 x T A x x^TAx xTAx是正定的,当且仅当 A A A的特征值都是正数;其二次型 x T A x x^TAx xTAx是负定的,当且仅当 A A A的特征值都是负数;其二次型 x T A x x^TAx xTAx是不定的,当且仅当 A A A的特征值有正有负。如果这个对称矩阵 A A A的二次型是正定的,那这个矩阵 A A A可以称为正定矩阵。负定矩阵和不定矩阵的定义可类推。

求二次型最值

  背景:对于 R n R^n Rn中的一个单位向量 x x x的模可以用以下等价的形式描述:
∣ ∣ x ∣ ∣ = 1 ||x||=1 x=1 ∣ ∣ x ∣ ∣ 2 = 1 ||x||^2=1 x2=1 x T x = 1 x^Tx=1 xTx=1 x 1 2 + ⋯ + x n 2 = 1 x^2_1+\cdots+x^2_n=1 x12++xn2=1。但是在实际应用中,常用 x T x = 1 x^Tx=1 xTx=1的展开式 x 1 2 + ⋯ + x n 2 = 1 x^2_1+\cdots+x^2_n=1 x12++xn2=1来描述。当一个二次型没有交叉乘积项的时候,容易在限制条件 x T x = 1 x^Tx=1 xTx=1下求出二次型 Q ( x ) Q(x) Q(x)的最大和最小值。

例1:求 Q ( x ) = 9 x 1 2 + 4 x 2 2 + 3 x 3 2 Q(x)=9x_1^2+4x_2^2+3x_3^2 Q(x)=9x12+4x22+3x32在限制条件 x T x = 1 x^Tx=1 xTx=1下的最大值和最小值。

解:
x 1 2 x_1^2 x12 x 2 2 x_2^2 x22都是非负的,所以对 x 1 x_1 x1 x 2 x_2 x2进行放缩有:

4 x 2 2 ≤ 9 x 2 2 4x_2^2\le9x_2^2 4x229x22

3 x 3 2 ≤ 9 x 3 2 3x_3^2\le9x_3^2 3x329x32

所以

Q ( x ) = 9 x 1 2 + 4 x 2 2 + 3 x 3 2 ≤ 9 x 1 2 + 9 x 2 2 + 9 x 3 2 = 9 ( x 1 2 + x 2 2 + x 3 2 ) = 9 Q(x)=9x_1^2+4x_2^2+3x_3^2\le9x_1^2+9x_2^2+9x_3^2=9(x_1^2+x_2^2+x_3^2)=9 Q(x)=9x12+4x22+3x329x12+9x22+9x32=9(x12+x22+x32)=9

所以,当 x x x为单位向量时, Q ( x ) Q(x) Q(x)的最大值不超过9(当 x = ( 1 , 0 , 0 ) x=(1,0,0) x=(1,0,0)时,取最大值9),所以 Q ( x ) = 9 Q(x)=9 Q(x)=9是在限制条件 x T x = 1 x^Tx=1 xTx=1下的最大值。

下面求最小值:

9 x 1 2 ≥ 3 x 1 2 9x_1^2\ge3x_1^2 9x123x12

4 x 2 2 ≥ 3 x 1 2 4x_2^2\ge3x_1^2 4x223x12

所以:

Q ( x ) = 9 x 1 2 + 4 x 2 2 + 3 x 3 2 ≥ 3 x 1 2 + 3 x 2 2 + 3 x 3 2 = 3 ( x 1 2 + x 2 2 + x 3 2 ) = 3 Q(x)=9x_1^2+4x_2^2+3x_3^2\ge3x_1^2+3x_2^2+3x_3^2=3(x_1^2+x_2^2+x_3^2)=3 Q(x)=9x12+4x22+3x323x12+3x22+3x32=3(x12+x22+x32)=3

即当当 x = ( 0 , 0 , 1 ) x=(0,0,1) x=(0,0,1)时, Q ( x ) = 3 Q(x)=3 Q(x)=3是在限制条件 x T x = 1 x^Tx=1 xTx=1下的最小值。

总结:在本例中,二次型 Q ( x ) = 9 x 1 2 + 4 x 2 2 + 3 x 3 2 Q(x)=9x_1^2+4x_2^2+3x_3^2 Q(x)=9x12+4x22+3x32对应的矩阵的特征值是9、4、3,且最大、最小特征值分别等于在限制条件 x T x = 1 x^Tx=1 xTx=1下的二次型 Q ( x ) = x T A x Q(x)=x^TAx Q(x)=xTAx的最大、最小值。本结论对任何二次型都成立。

例2: A = [ 3 0 0 7 ] A=\begin{bmatrix}3&0\\0&7\end{bmatrix} A=[3007],当 x x x属于 R 2 R^2 R2时, Q ( x ) = x T A x Q(x)=x^TAx Q(x)=xTAx

可知矩阵 A A A的特征值为3和7。由例1可知,最大、最小特征值分别等于在限制条件 x T x = 1 x^Tx=1 xTx=1下的 Q ( x ) = x T A x Q(x)=x^TAx Q(x)=xTAx的最大、最小值,所以曲线上的最高点(因为对称,所以有2个最高点2个最低点)在 x 1 x 2 x_1x_2 x1x2平面上7个单位处,对应于特征向量 x = ( 0 , ± 1 ) x=(0,\pm1) x=(0,±1);曲线最低点在在 x 1 x 2 x_1x_2 x1x2平面上3个单位处,对应特征向量 x = ( ± 1 , 0 ) x=(\pm1,0) x=(±1,0)

例3: A = [ 3 2 1 2 3 1 1 1 4 ] A=\begin{bmatrix}3&2&1\\2&3&1\\1&1&4\end{bmatrix} A=321231114,求二次型 x T A x x^TAx xTAx在限制条件 x T x = 1 x^Tx=1 xTx=1下的最大值和可以取到该最大值的单位向量。

解:

特征方程: 0 = d e t ( A − λ I ) = − λ 3 + 10 λ 2 − 27 λ + 18 = − ( λ − 6 ) ( λ − 3 ) ( λ − 1 ) 0=det(A-\lambda I)=-\lambda ^3+10\lambda^2-27\lambda+18=-(\lambda-6)(\lambda-3)(\lambda-1) 0=det(AλI)=λ3+10λ227λ+18=(λ6)(λ3)(λ1)

所以,特征值为1、3、6,最大特征值为6.

根据定理,二次型 x T A x x^TAx xTAx在限制条件 x T x = 1 x^Tx=1 xTx=1下的最大值可以在最大的特征向量,即6,对应的单位特征向量 x x x处取得:

( A − λ I ) = ( A − 6 I ) x = 0 (A-\lambda I)=(A-6I)x=0 (AλI)=(A6I)x=0

[ − 3 2 1 0 2 − 3 1 0 1 1 − 2 0 ] → [ 1 0 − 1 0 0 1 − 1 0 0 0 0 0 ] \begin{bmatrix}-3&2&1&0\\2&-3&1&0\\1&1&-2&0\end{bmatrix}\rightarrow \begin{bmatrix}1&0&-1&0\\0&1&-1&0\\0&0&0&0\end{bmatrix} 321231112000100010110000

通解: x = [ x 1 x 2 x 3 ] = x 3 [ 1 1 1 ] x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=x_3\begin{bmatrix}1\\1\\1\end{bmatrix} x=x1x2x3=x3111

所以 λ = 6 \lambda =6 λ=6对应的特征向量为 v 1 = [ 1 1 1 ] v_1=\begin{bmatrix}1\\1\\1\end{bmatrix} v1=111

单位化: u 1 = [ 1 3 1 3 1 3 ] u_1=\begin{bmatrix}\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\end{bmatrix} u1=3 13 13 1

总结:本例用到的定理:如果 A A A是对称矩阵, m m m M M M分别为在限制条件 x T x = 1 x^Tx=1 xTx=1下的二次型 Q ( x ) = x T A x Q(x)=x^TAx Q(x)=xTAx的最小、最大值,那么 m m m M M M也同时分别为矩阵 A A A的最小、最大特征值。如果 x x x是对应于 M M M的单位特征向量 u 1 u_1 u1,那么 x T A x = M x^TAx=M xTAx=M;如果 x x x是对应于 m m m的单位特征向量 u 2 u_2 u2,那么 x T A x = m x^TAx=m xTAx=m

例4:求 9 x 1 2 + 4 x 2 2 + 3 x 3 2 9x_1^2+4x_2^2+3x_3^2 9x12+4x22+3x32的最大值,限制条件为 x T x = 1 x^Tx=1 xTx=1 x T u 1 = 0 x^Tu_1=0 xTu1=0,其中 u 1 = ( 1 , 0 , 0 ) u_1=(1,0,0) u1=(1,0,0)

解:
由观测可知,二次型 9 x 1 2 + 4 x 2 2 + 3 x 3 2 9x_1^2+4x_2^2+3x_3^2 9x12+4x22+3x32对应的矩阵的最大特征值是9,

由例1知, Q ( x ) Q(x) Q(x)的最大值不超过9(当 x = ( 1 , 0 , 0 ) x=(1,0,0) x=(1,0,0)时,取最大值9),所以 Q ( x ) = 9 Q(x)=9 Q(x)=9是在限制条件 x T x = 1 x^Tx=1 xTx=1下的最大值,最大特征值9对应单位特征向量 u 1 = ( 1 , 0 , 0 ) u_1=(1,0,0) u1=(1,0,0)

由限制条件 x T u 1 = 0 x^Tu_1=0 xTu1=0得:

[ x 1 x 2 x 3 ] [ 1 0 0 ] = x 1 = 0 \begin{bmatrix}x_1&x_2&x_3\end{bmatrix}\begin{bmatrix}1\\0\\0\end{bmatrix}=x_1=0 [x1x2x3]100=x1=0

这就意味着,对于单位向量 u 1 = [ 1 0 0 ] u_1=\begin{bmatrix}1\\0\\0\end{bmatrix} u1=100,有 x 2 2 + x 3 3 = 1 x_2^2+x_3^3=1 x22+x33=1


Q ( x ) = 9 x 1 2 + 4 x 2 2 + 3 x 3 2 = 4 x 2 2 + 3 x 3 2 ≤ 4 x 2 2 + 4 x 3 2 = 4 Q(x)=9x_1^2+4x_2^2+3x_3^2=4x_2^2+3x_3^2\le4x_2^2+4x_3^2=4 Q(x)=9x12+4x22+3x32=4x22+3x324x22+4x32=4

在这样的限制条件下,二次型最大值不超过4,这个最大值可能在 x = ( 0 , 1 , 0 ) x=(0,1,0) x=(0,1,0)处取得,而这是该二次型第二大的特征向量。

总结:如果限制条件为 x T x = 1 x^Tx=1 xTx=1 x T u 1 = 0 x^Tu_1=0 xTu1=0 u 1 u_1 u1为矩阵 A A A最大特征值对应的单位特征向量),二次型 x T A x x^TAx xTAx的最大值为 A A A第二大的特征值,且在对应于第二大特征值的特征向量 u 2 u_2 u2处取得。

  • 4
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值