对称矩阵的对角化
对称矩阵:如果矩阵AAA满足AT=AA^T=AAT=A,那么AAA为对称矩阵,对称矩阵一定是方阵。
正交对角化
如果一个矩阵AAA可正交对角化,那么存在一个正交矩阵PPP(根据正交矩阵的定义可知,P−1=PTP^{-1}=P^TP−1=PT)和一个对角阵,使得:A=PDPT=PDP−1A=PDP^T=PDP^{-1}A=PDPT=PDP−1。
定理:一个n×nn\times nn×n的矩阵AAA可以正交对角化的充要条件是AAA为对称矩阵。
例1:判断矩阵A=[6−2−1−26−1−1−15]A=\begin{bmatrix}6&-2&-1\\-2&6&-1\\-1&-1&5\end{bmatrix}A=⎣⎡6−2−1−26−1−1−15⎦⎤是否可以对角化,如果可以请对其进行对角化。
解:
AAA的特征方程:0=det(A−λI)=−λ3+17λ2−90λ+144=−(λ−8)(λ−6)(λ−3)0=det(A-\lambda I)=-\lambda ^3+17\lambda^2-90\lambda+144=-(\lambda-8)(\lambda-6)(\lambda-3)0=det(A−λI)=−λ3+17λ2−90λ+144=−(λ−8)(λ−6)(λ−3)
特征值为3,6,8.
求λ=8\lambda =8λ=8对应的基:
化简方程(A−λI)x=(A−8I)x=0(A-\lambda I)x=(A-8 I)x=0(A−λI)x=(A−8I)x=0对应的增广矩阵:
[6−8−2−10−26−8−10−1−15−80]→[110000100000]\begin{bmatrix}6-8&-2&-1&0\\-2&6-8&-1&0\\-1&-1&5-8&0\end{bmatrix}\rightarrow \begin{bmatrix}1&1&0&0\\0&0&1&0\\0&0&0&0\end{bmatrix}⎣⎡6−8−2−1−26−8−1−1−15−8000⎦⎤→⎣⎡100100010000⎦⎤
即通解为:x=[x1x2x3]=x2[−110]x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=x_2\begin{bmatrix}-1\\1\\0\end{bmatrix}x=⎣⎡x1x2x3⎦⎤=x2⎣⎡−110⎦⎤
所以λ=8\lambda =8λ=8对应的基为v1=[−110]v_1=\begin{bmatrix}-1\\1\\0\end{bmatrix}v1=⎣⎡−110⎦⎤;同理,求得
λ=6\lambda =6λ=6对应的基为v2=[−1−12]v_2=\begin{bmatrix}-1\\-1\\2\end{bmatrix}v2=⎣⎡−1−12⎦⎤;λ=3\lambda =3λ=3对应的基为v3=[111]v_3=\begin{bmatrix}1\\1\\1\end{bmatrix}v3=⎣⎡111⎦⎤。
向量v1v_1v1,v2v_2v2,v3v_3v3形成了R3R^3R3上一个基,因为v1Tv2=0v_1^Tv_2=0v1Tv2=0,v1Tv3=0v_1^Tv_3=0v1Tv3=0,v2Tv3=0v_2^Tv_3=0v2Tv3=0,所以{v1,v2,v3}\{v_1,v_2,v_3\}{v1,v2,v3}是R3R^3R3上一个正交基。
单位化后得到:(注:上面的v1,v2,v3v_1,v_2,v_3v1,v2,v3是AAA的3个线性无关的特征向量,下面u1,u2,u3u_1,u_2,u_3u1,u2,u3是单位特征向量)
u1=[−12120]u_1=\begin{bmatrix}-\frac{1}{\sqrt2}\\\frac{1}{\sqrt2}\\0\end{bmatrix}u1=⎣⎡−21210⎦⎤
u2=[−16−1626]u_2=\begin{bmatrix}-\frac{1}{\sqrt6}\\-\frac{1}{\sqrt6}\\\frac{2}{\sqrt6}\end{bmatrix}u2=⎣⎢⎡−61−6162⎦⎥⎤
u3=[131313]u_3=\begin{bmatrix}\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\end{bmatrix}u3=⎣⎢⎡313131⎦⎥⎤
所以可以得到矩阵P=[u1u2u3]=[−12−1613−12−161302613]P=[u_1\quad u_2\quad u_3]=\begin{bmatrix}-\frac{1}{\sqrt2}&-\frac{1}{\sqrt6}&\frac{1}{\sqrt3}\\-\frac{1}{\sqrt2}&-\frac{1}{\sqrt6}&\frac{1}{\sqrt3}&\\0&\frac{2}{\sqrt6}&\frac{1}{\sqrt3}\end{bmatrix}P=[u1u2u3]=⎣⎢⎡−21−210−61−6162313131⎦⎥⎤,
所以D=[800060003]D=\begin{bmatrix}8&0&0\\0&6&0\\0&0&3\end{bmatrix}D=⎣⎡800060003⎦⎤
到此,AAA对角化完成:A=PDP−1A=PDP^{-1}A=PDP−1。
因为PPP是方阵,且有单位正交列,所以PPP是正交矩阵,且P−1=PTP^{-1}=P^TP−1=PT,因为正交矩阵的定义是,该矩阵可逆且有其转置等于其逆。
总结:如果AAA是对称矩阵,那么不同特征空间的任意两个特征向量是正交的。例如本例中,特征向量v1=[−110]v_1=\begin{bmatrix}-1\\1\\0\end{bmatrix}v1=⎣⎡−110⎦⎤对应的特征空间是过原点及点(−1,1,0)(-1,1,0)(−1,1,0)的直线,该特征空间由零向量和所有对应于λ=8\lambda =8λ=8这个特征值的特征向量(即v1v_1v1的所有倍数)构成。
例2:将矩阵A=[3−24−262423]A=\begin{bmatrix}3&-2&4\\-2&6&2\\4&2&3\end{bmatrix}A=⎣⎡3−24−262423⎦⎤正交对角化。
解:
特征方程:0=det(A−λI)=−λ3+12λ2−21λ−98=−(λ−7)2(λ+2)0=det(A-\lambda I)=-\lambda ^3+12\lambda^2-21\lambda-98=-(\lambda-7)^2(\lambda+2)0=det(A−λI)=−λ3+12λ2−21λ−98=−(λ−7)2(λ+2)
按照上例的方法计算特征值对应的基:
λ=7:v1=[101],v2=[−1210]\lambda=7:v_1=\begin{bmatrix}1\\0\\1\end{bmatrix},v_2=\begin{bmatrix}-\frac{1}{2}\\1\\0\end{bmatrix}λ=7:v1=⎣⎡101⎦⎤,v2=⎣⎡−2110⎦⎤
λ=−2:v3=[−1−121]\lambda=-2:v_3=\begin{bmatrix}-1\\-\frac{1}{2}\\1\end{bmatrix}λ=−2:v3=⎣⎡−1−211⎦⎤
可验算v1⋅v2=−12≠0v_1\cdot v_2=-\frac{1}{2}\neq 0v1⋅v2=−21=0,虽然v1v_1v1,v2v_2v2线性无关,但是不正交(可验算v1v_1v1和v3v_3v3正交,v2v_2v2和v3v_3v3正交,即属于不同特征空间的特征向量是正交的)。
可求出v2v_2v2中与v1v_1v1正交的分量:
z2=v2−v2⋅v1v1⋅v1v1=[−1210]−−122[101]=[−14114]z_2=v_2-\frac{v_2\cdot v_1}{v_1\cdot v_1}v_1=\begin{bmatrix}-\frac{1}{2}\\1\\0\end{bmatrix}-\frac{-\frac{1}{2}}{2}\begin{bmatrix}1\\0\\1\end{bmatrix}=\begin{bmatrix}-\frac{1}{4}\\1\\\frac{1}{4}\end{bmatrix}z2=v2−v1⋅v1v2⋅v1v1=⎣⎡−2110⎦⎤−2−21⎣⎡101⎦⎤=⎣⎡−41141⎦⎤ (格拉姆-施密特方法)
(v2⋅v1v1⋅v1v1\frac{v_2\cdot v_1}{v_1\cdot v_1}v_1v1⋅v1v2⋅v1v1为v2v_2v2在v1v_1v1上的投影)
所以{v1,z2}\{v_1,z_2\}{v1,z2}是关于λ=7\lambda=7λ=7的特征空间的正交集。z2z_2z2是v1v_1v1和v2v_2v2的线性组合,所以z2z_2z2属于λ=7\lambda=7λ=7的特征空间(二维,基是v1v_1v1和v2v_2v2,该特征空间是v1v_1v1和v2v_2v2确定的平面),所以正交集{v1,z2}\{v_1,z_2\}{v1,z2}是λ=7\lambda=7λ=7的特征空间的正交基。
将v1v_1v1、z2z_2z2单位化:
u1=[12012]u_1=\begin{bmatrix}\frac{1}{\sqrt2}\\0\\\frac{1}{\sqrt2}\end{bmatrix}u1=⎣⎡21021⎦⎤
u2=[−118418118]u_2=\begin{bmatrix}-\frac{1}{\sqrt{18}}\\\frac{4}{\sqrt{18}}\\\frac{1}{\sqrt{18}}\end{bmatrix}u2=⎣⎢⎡−181184181⎦⎥⎤
特征值λ=−2\lambda=-2λ=−2对应的基:
u3=[−23−1323]u_3=\begin{bmatrix}-\frac{2}{3}\\-\frac{1}{3}\\\frac{2}{3}\end{bmatrix}u3=⎣⎡−32−3132⎦⎤
验算:u1⋅u2=0u_1\cdot u_2=0u1⋅u2=0,u1⋅u3=0u_1\cdot u_3=0u1⋅u3=0,u2⋅u3=0u_2\cdot u_3=0u2⋅u3=0
可见本例符合如果AAA是对称矩阵,那么不同特征空间的任意两个特征向量是正交的,这个定理。
二次型(Quadratic Form)定义
RnR^nRn上一个二次型是一个定义在RnR^nRn上的函数,它在向量xxx处的值可以表示为Q(x)=xTAxQ(x)=x^TAxQ(x)=xTAx,其中AAA是一个n×nn\times nn×n的对称矩阵。矩阵AAA称为关于二次型的矩阵。
例1:设x=[x1x2]x=\begin{bmatrix}x_1\\x_2\end{bmatrix}x=[x1x2],计算下列矩阵的xTAxx^TAxxTAx:
A=[4003]A=\begin{bmatrix}4&0\\0&3\end{bmatrix}A=[4003],B=[3−2−27]B=\begin{bmatrix}3&-2\\-2&7\end{bmatrix}B=[3−2−27]。
解:
xTAx=[x1x2][4003][x1x2]=4x12+3x22x^TAx=\begin{bmatrix}x_1&x_2\end{bmatrix}\begin{bmatrix}4&0\\0&3\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=4x_1^2+3x_2^2xTAx=[x1x2][4003][x1x2]=4x12+3x22
xTAx=[x1x2][3−2−27][x1x2]=3x12−4x1x2+7x22x^TAx=\begin{bmatrix}x_1&x_2\end{bmatrix}\begin{bmatrix}3&-2\\-2&7\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=3x_1^2-4x_1x_2+7x_2^2xTAx=[x1x2][3−2−27][x1x2]=3x12−4x1x2+7x22
例2:对于属于R3R^3R3的xxx,设Q(x)=5x12+3x22+2x32−x1x2+8x2x3Q(x)=5x_1^2+3x_2^2+2x_3^2-x_1x_2+8x_2x_3Q(x)=5x12+3x22+2x32−x1x2+8x2x3,请写出xTAxx^TAxxTAx形式的二次型。
解:
x12x_1^2x12,x22x_2^2x22,x32x_3^2x32的系数在对角线上。为了使AAA对称,当i≠ji\neq ji=j时,xixjx_ix_jxixj的系数要平均分配给AAA中的(i,j)(i,j)(i,j)元素。因为Q(x)Q(x)Q(x)表达式中没有x1x3x_1x_3x1x3,所以矩阵AAA中(1,3)(1,3)(1,3)和(3,1)(3,1)(3,1)元素都为0。对于x2x3x_2x_3x2x3其系数为8,所以矩阵AAA中(2,3)(2,3)(2,3)和(3,12)(3,12)(3,12)元素都为8的一半,即4。
所以Q(x)=xTAx=[x1x2x3][5−120−1234042][x1x2x3]Q(x)=x^TAx=\begin{bmatrix}x_1&x_2&x_3\end{bmatrix}\begin{bmatrix}5&-\frac{1}{2}&0\\-\frac{1}{2}&3&4\\0&4&2\end{bmatrix}\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}Q(x)=xTAx=[x1x2x3]⎣⎡5−210−2134042⎦⎤⎣⎡x1x2x3⎦⎤
验算可知上面的分解是成立的。
例3:令Q(x)=x12−8x1x2−5x22Q(x)=x_1^2-8x_1x_2-5x^2_2Q(x)=x12−8x1x2−5x22,请计算Q(x)Q(x)Q(x)在x=[−31]x=\begin{bmatrix}-3\\1\end{bmatrix}x=[−31],[2−2]\begin{bmatrix}2\\-2\end{bmatrix}[2−2]和[1−3]\begin{bmatrix}1\\-3\end{bmatrix}[1−3]处的值。
解:
Q(−3,1)=(−3)2−8(−3×1)−5×12=28Q(-3,1)=(-3)^2-8(-3\times 1)-5\times1^2=28Q(−3,1)=(−3)2−8(−3×1)−5×12=28
Q(2,2)=(2)2−8(−2×2)−5×22=16Q(2,2)=(2)^2-8(-2\times 2)-5\times2^2=16Q(2,2)=(2)2−8(−2×2)−5×22=16
Q(1,−3)=(1)2−8(1×(−3))−5(−3)2=−20Q(1,-3)=(1)^2-8(1\times (-3))-5(-3)^2=-20Q(1,−3)=(1)2−8(1×(−3))−5(−3)2=−20
二次型的变量代换
方法:如果xxx表示RnR^nRn中的向量变量,那么变量代换为:x=Pyx=Pyx=Py,或y=P−1xy=P^{-1}xy=P−1x,其中PPP为可逆矩阵,yyy是RnR^nRn中一个新的向量变量。这里PPP的列可以确定RnR^nRn的一个基,yyy是相对于该基的向量xxx的坐标向量。
使用上面变量代换(x=Pyx=Pyx=Py,或y=P−1xy=P^{-1}xy=P−1x)处理二次型xTAxx^TAxxTAx,则:xTAx=(Py)TA(Py)=yTPTAPy=yT(PTAP)yx^TAx=(Py)^TA(Py)=y^TP^TAPy=y^T(P^TAP)yxTAx=(Py)TA(Py)=yTPTAPy=yT(PTAP)y,则新的二次型矩阵是PTAPP^TAPPTAP。因为矩阵AAA是对称的,所以存在正交矩阵PPP使得矩阵PTAPP^TAPPTAP是对角阵DDD,所以xTAx=yT(PTAP)y=yTDyx^TAx=y^T(P^TAP)y=y^TDyxTAx=yT(PTAP)y=yTDy。
例:将二次型Q(x)=x12−8x1x2−5x22Q(x)=x_1^2-8x_1x_2-5x^2_2Q(x)=x12−8x1x2−5x22变为一个没有交叉乘积项的二次型。
解:
二次型Q(x)=x12−8x1x2−5x22Q(x)=x_1^2-8x_1x_2-5x^2_2Q(x)=x12−8x1x2−5x22对应的矩阵为:A=[1−4−4−5]A=\begin{bmatrix}1&-4\\-4&-5\end{bmatrix}A=[1−4−4−5],下面将AAA正交对角化。
AAA的特征值和对应的单位特征向量:
λ=3:v1=[25−25]\lambda=3:v_1=\begin{bmatrix}\frac{2}{\sqrt5}\\-\frac{2}{\sqrt5}\end{bmatrix}λ=3:v1=[52−52]
λ=−7:v2=[1525]\lambda=-7:v_2=\begin{bmatrix}\frac{1}{\sqrt5}\\\frac{2}{\sqrt5}\end{bmatrix}λ=−7:v2=[5152]
根据定理,对应于对称矩阵的不同特征值的特征向量是正交的,且能构成R2R^2R2的一个单位正交基。下面构造对角化分解矩阵:
P=[2515−1525]P=\begin{bmatrix}\frac{2}{\sqrt5}&\frac{1}{\sqrt5}\\-\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix}P=[52−515152]
D=[300−7]D=\begin{bmatrix}3&0\\0&-7\end{bmatrix}D=[300−7]
使用MATLAB构造对角化分解矩阵
A =
1 -4
-4 -5
>> eig(A)
ans =
-7
3
>> [P D] = eig(A)
P =
0.4472 -0.8944
0.8944 0.4472
D =
-7 0
0 3
可见,使用MATLAB求出来的分解矩阵PPP、DDD和手算出来的是有区别的。
(接上面计算)
对角化分解为:A=PDP−1A=PDP^{-1}A=PDP−1即D=P−1AP=PTAPD=P^{-1}AP=P^TAPD=P−1AP=PTAP
所以,对于本例,变量代换为:x=Pyx=Pyx=Py,其中x=[x1x2]x=\begin{bmatrix}x_1\\x_2\end{bmatrix}x=[x1x2],y=[y1y2]y=\begin{bmatrix}y_1\\y_2\end{bmatrix}y=[y1y2]
所以,对于二次型:Q(x)=x12−8x1x2−5x22=xTAx=(Py)TA(Py)=yT(PTAP)y=yTDy=[y1y2][300−7][y1y2]=3y12−7y22Q(x)=x_1^2-8x_1x_2-5x^2_2=x^TAx=(Py)^TA(Py)=y^T(P^TAP)y=y^TDy=\begin{bmatrix}y_1&y_2\end{bmatrix}\begin{bmatrix}3&0\\0&-7\end{bmatrix}\begin{bmatrix}y_1\\y_2\end{bmatrix}=3y_1^2-7y_2^2Q(x)=x12−8x1x2−5x22=xTAx=(Py)TA(Py)=yT(PTAP)y=yTDy=[y1y2][300−7][y1y2]=3y12−7y22
因为x=Pyx=Pyx=Py,即y=P−1x=PTxy=P^{-1}x=P^Txy=P−1x=PTx,所以:
y=[25−151525][x1x2]y=\begin{bmatrix}\frac{2}{\sqrt5}&-\frac{1}{\sqrt5}\\\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}y=[5251−5152][x1x2]
可以根据这个式子(即新的二次型,关于yyy的二次型)来计算Q(x)Q(x)Q(x)值,例如上例中的
Q(−3,1)=(−3)2−8(−3×1)−5×12=28Q(-3,1)=(-3)^2-8(-3\times 1)-5\times1^2=28Q(−3,1)=(−3)2−8(−3×1)−5×12=28
使用新二次型计算:
先算向量yyy:
y=[25−151525][−31]=[−75−15]y=\begin{bmatrix}\frac{2}{\sqrt5}&-\frac{1}{\sqrt5}\\\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix}\begin{bmatrix}-3\\1\end{bmatrix}=\begin{bmatrix}-\frac{7}{\sqrt5}\\-\frac{1}{\sqrt5}\end{bmatrix}y=[5251−5152][−31]=[−57−51]
所以,3y12−7y22=3×495−7×15=1405=283y_1^2-7y_2^2=3\times\frac{49}{5}-7\times\frac{1}{5}=\frac{140}{5}=283y12−7y22=3×549−7×51=5140=28
可见,和前面使用原二次型Q(x)=x12−8x1x2−5x22Q(x)=x_1^2-8x_1x_2-5x^2_2Q(x)=x12−8x1x2−5x22计算结果是相符的。
主轴定理
主轴定理:若AAA为n×nn\times nn×n的矩阵,那么存在一个正交变量代换x=Pyx=Pyx=Py将二次型xTAxx^TAxxTAx变换为不含交叉乘积项的二次型yTDyy^TDyyTDy。这里的矩阵PPP的列就是二次型xTAxx^TAxxTAx的主轴,向量yyy是向量xxx在由这些主轴构造的RnR^nRn空间中的单位正交基下的坐标向量。
主轴是标准图像经过旋转后的所到的位置的标准图形的坐标轴。例如,上例中,Q(−3,1)=x12−8x1x2−5x22=28Q(-3,1)=x_1^2-8x_1x_2-5x^2_2=28Q(−3,1)=x12−8x1x2−5x22=28是一个中心在原点,的椭圆,其长轴和短轴不在x1x_1x1和x2x_2x2上,而是分别在y1y_1y1和y2y_2y2上,而y1y_1y1的正方向,是对应的PPP矩阵的第一列的方向,y2y_2y2的正方向,是对应的PPP矩阵的第二列的方向。
上例总,P=[2515−1525]P=\begin{bmatrix}\frac{2}{\sqrt5}&\frac{1}{\sqrt5}\\-\frac{1}{\sqrt5}&\frac{2}{\sqrt5}\end{bmatrix}P=[52−515152],所以y1y_1y1方向为(2,−1)(2,-1)(2,−1),y2y_2y2方向为(1,2)(1,2)(1,2)。
正定二次型、正定矩阵
正定二次型定义:如果一个二次型QQQ对所有的x≠0x\neq0x=0,都有Q(x)>0Q(x)>0Q(x)>0,则此二次型是正定的(positive definite);如果一个二次型QQQ对所有的x≠0x\neq0x=0,都有Q(x)<0Q(x)<0Q(x)<0,则此二次型是负定的(negative definite);如果Q(x)Q(x)Q(x)既有正值又有负值,那么是不定的(indefinite)。如果对所有xxx有Q(x)≥0Q(x)\ge0Q(x)≥0,则QQQ是半正定的(positive semidefinite);如果对所有xxx有Q(x)≤0Q(x)\le0Q(x)≤0,则QQQ是半负定的(negative semidefinite)。
定理:如果矩阵AAA是n×nn\times nn×n的对称矩阵,其二次型xTAxx^TAxxTAx是正定的,当且仅当AAA的特征值都是正数;其二次型xTAxx^TAxxTAx是负定的,当且仅当AAA的特征值都是负数;其二次型xTAxx^TAxxTAx是不定的,当且仅当AAA的特征值有正有负。如果这个对称矩阵AAA的二次型是正定的,那这个矩阵AAA可以称为正定矩阵。负定矩阵和不定矩阵的定义可类推。
求二次型最值
背景:对于RnR^nRn中的一个单位向量xxx的模可以用以下等价的形式描述:
∣∣x∣∣=1||x||=1∣∣x∣∣=1,∣∣x∣∣2=1||x||^2=1∣∣x∣∣2=1,xTx=1x^Tx=1xTx=1和x12+⋯+xn2=1x^2_1+\cdots+x^2_n=1x12+⋯+xn2=1。但是在实际应用中,常用xTx=1x^Tx=1xTx=1的展开式x12+⋯+xn2=1x^2_1+\cdots+x^2_n=1x12+⋯+xn2=1来描述。当一个二次型没有交叉乘积项的时候,容易在限制条件xTx=1x^Tx=1xTx=1下求出二次型Q(x)Q(x)Q(x)的最大和最小值。
例1:求Q(x)=9x12+4x22+3x32Q(x)=9x_1^2+4x_2^2+3x_3^2Q(x)=9x12+4x22+3x32在限制条件xTx=1x^Tx=1xTx=1下的最大值和最小值。
解:
x12x_1^2x12和x22x_2^2x22都是非负的,所以对x1x_1x1、x2x_2x2进行放缩有:
4x22≤9x224x_2^2\le9x_2^24x22≤9x22
3x32≤9x323x_3^2\le9x_3^23x32≤9x32
所以
Q(x)=9x12+4x22+3x32≤9x12+9x22+9x32=9(x12+x22+x32)=9Q(x)=9x_1^2+4x_2^2+3x_3^2\le9x_1^2+9x_2^2+9x_3^2=9(x_1^2+x_2^2+x_3^2)=9Q(x)=9x12+4x22+3x32≤9x12+9x22+9x32=9(x12+x22+x32)=9
所以,当xxx为单位向量时,Q(x)Q(x)Q(x)的最大值不超过9(当x=(1,0,0)x=(1,0,0)x=(1,0,0)时,取最大值9),所以Q(x)=9Q(x)=9Q(x)=9是在限制条件xTx=1x^Tx=1xTx=1下的最大值。
下面求最小值:
9x12≥3x129x_1^2\ge3x_1^29x12≥3x12
4x22≥3x124x_2^2\ge3x_1^24x22≥3x12
所以:
Q(x)=9x12+4x22+3x32≥3x12+3x22+3x32=3(x12+x22+x32)=3Q(x)=9x_1^2+4x_2^2+3x_3^2\ge3x_1^2+3x_2^2+3x_3^2=3(x_1^2+x_2^2+x_3^2)=3Q(x)=9x12+4x22+3x32≥3x12+3x22+3x32=3(x12+x22+x32)=3
即当当x=(0,0,1)x=(0,0,1)x=(0,0,1)时,Q(x)=3Q(x)=3Q(x)=3是在限制条件xTx=1x^Tx=1xTx=1下的最小值。
总结:在本例中,二次型Q(x)=9x12+4x22+3x32Q(x)=9x_1^2+4x_2^2+3x_3^2Q(x)=9x12+4x22+3x32对应的矩阵的特征值是9、4、3,且最大、最小特征值分别等于在限制条件xTx=1x^Tx=1xTx=1下的二次型Q(x)=xTAxQ(x)=x^TAxQ(x)=xTAx的最大、最小值。本结论对任何二次型都成立。
例2:A=[3007]A=\begin{bmatrix}3&0\\0&7\end{bmatrix}A=[3007],当xxx属于R2R^2R2时,Q(x)=xTAxQ(x)=x^TAxQ(x)=xTAx。
可知矩阵AAA的特征值为3和7。由例1可知,最大、最小特征值分别等于在限制条件xTx=1x^Tx=1xTx=1下的Q(x)=xTAxQ(x)=x^TAxQ(x)=xTAx的最大、最小值,所以曲线上的最高点(因为对称,所以有2个最高点2个最低点)在x1x2x_1x_2x1x2平面上7个单位处,对应于特征向量x=(0,±1)x=(0,\pm1)x=(0,±1);曲线最低点在在x1x2x_1x_2x1x2平面上3个单位处,对应特征向量x=(±1,0)x=(\pm1,0)x=(±1,0)
例3:A=[321231114]A=\begin{bmatrix}3&2&1\\2&3&1\\1&1&4\end{bmatrix}A=⎣⎡321231114⎦⎤,求二次型xTAxx^TAxxTAx在限制条件xTx=1x^Tx=1xTx=1下的最大值和可以取到该最大值的单位向量。
解:
特征方程:0=det(A−λI)=−λ3+10λ2−27λ+18=−(λ−6)(λ−3)(λ−1)0=det(A-\lambda I)=-\lambda ^3+10\lambda^2-27\lambda+18=-(\lambda-6)(\lambda-3)(\lambda-1)0=det(A−λI)=−λ3+10λ2−27λ+18=−(λ−6)(λ−3)(λ−1)
所以,特征值为1、3、6,最大特征值为6.
根据定理,二次型xTAxx^TAxxTAx在限制条件xTx=1x^Tx=1xTx=1下的最大值可以在最大的特征向量,即6,对应的单位特征向量xxx处取得:
解(A−λI)=(A−6I)x=0(A-\lambda I)=(A-6I)x=0(A−λI)=(A−6I)x=0
[−32102−31011−20]→[10−1001−100000]\begin{bmatrix}-3&2&1&0\\2&-3&1&0\\1&1&-2&0\end{bmatrix}\rightarrow \begin{bmatrix}1&0&-1&0\\0&1&-1&0\\0&0&0&0\end{bmatrix}⎣⎡−3212−3111−2000⎦⎤→⎣⎡100010−1−10000⎦⎤
通解:x=[x1x2x3]=x3[111]x=\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}=x_3\begin{bmatrix}1\\1\\1\end{bmatrix}x=⎣⎡x1x2x3⎦⎤=x3⎣⎡111⎦⎤
所以λ=6\lambda =6λ=6对应的特征向量为v1=[111]v_1=\begin{bmatrix}1\\1\\1\end{bmatrix}v1=⎣⎡111⎦⎤,
单位化:u1=[131313]u_1=\begin{bmatrix}\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\\\frac{1}{\sqrt3}\end{bmatrix}u1=⎣⎢⎡313131⎦⎥⎤
总结:本例用到的定理:如果AAA是对称矩阵,mmm和MMM分别为在限制条件xTx=1x^Tx=1xTx=1下的二次型Q(x)=xTAxQ(x)=x^TAxQ(x)=xTAx的最小、最大值,那么mmm和MMM也同时分别为矩阵AAA的最小、最大特征值。如果xxx是对应于MMM的单位特征向量u1u_1u1,那么xTAx=Mx^TAx=MxTAx=M;如果xxx是对应于mmm的单位特征向量u2u_2u2,那么xTAx=mx^TAx=mxTAx=m。
例4:求9x12+4x22+3x329x_1^2+4x_2^2+3x_3^29x12+4x22+3x32的最大值,限制条件为xTx=1x^Tx=1xTx=1和xTu1=0x^Tu_1=0xTu1=0,其中u1=(1,0,0)u_1=(1,0,0)u1=(1,0,0)。
解:
由观测可知,二次型9x12+4x22+3x329x_1^2+4x_2^2+3x_3^29x12+4x22+3x32对应的矩阵的最大特征值是9,
由例1知,Q(x)Q(x)Q(x)的最大值不超过9(当x=(1,0,0)x=(1,0,0)x=(1,0,0)时,取最大值9),所以Q(x)=9Q(x)=9Q(x)=9是在限制条件xTx=1x^Tx=1xTx=1下的最大值,最大特征值9对应单位特征向量u1=(1,0,0)u_1=(1,0,0)u1=(1,0,0)。
由限制条件xTu1=0x^Tu_1=0xTu1=0得:
[x1x2x3][100]=x1=0\begin{bmatrix}x_1&x_2&x_3\end{bmatrix}\begin{bmatrix}1\\0\\0\end{bmatrix}=x_1=0[x1x2x3]⎣⎡100⎦⎤=x1=0
这就意味着,对于单位向量u1=[100]u_1=\begin{bmatrix}1\\0\\0\end{bmatrix}u1=⎣⎡100⎦⎤,有x22+x33=1x_2^2+x_3^3=1x22+x33=1
即
Q(x)=9x12+4x22+3x32=4x22+3x32≤4x22+4x32=4Q(x)=9x_1^2+4x_2^2+3x_3^2=4x_2^2+3x_3^2\le4x_2^2+4x_3^2=4Q(x)=9x12+4x22+3x32=4x22+3x32≤4x22+4x32=4
在这样的限制条件下,二次型最大值不超过4,这个最大值可能在x=(0,1,0)x=(0,1,0)x=(0,1,0)处取得,而这是该二次型第二大的特征向量。
总结:如果限制条件为xTx=1x^Tx=1xTx=1和xTu1=0x^Tu_1=0xTu1=0(u1u_1u1为矩阵AAA最大特征值对应的单位特征向量),二次型xTAxx^TAxxTAx的最大值为AAA第二大的特征值,且在对应于第二大特征值的特征向量u2u_2u2处取得。