【线性代数及其应用】08 - 对称矩阵及二次型

对称矩阵与二次型

1 实对称矩阵的对角化-谱分解

1.1 含义

  谱分解又叫做对称矩阵的对角化,也就是说,必须是能进行对角化的对称矩阵,才能进行谱分解。

1.2 实对称矩阵的特征向量是正交的

根 据 对 角 化 A = S ∗ λ ∗ S − 1 根据对角化 A = S*λ*S^{-1} A=SλS1
  因为A是对称矩阵,有A=A^T

A T = ( S − 1 ) T ∗ λ T ∗ S T = S ∗ λ ∗ S − 1 A^T = (S^{-1})^T*λ^T*S^T=S*λ*S^{-1} AT=(S1)TλTST=SλS1
  所以有S-1=ST

  可知S必定是一个标准正交阵,原对角分解可化为
A = Q ∗ ∑ ∗ Q T A = Q*∑*Q^T A=QQT

1.3 分解条件

  谱分解的条件是矩阵A必须是能进行对角化的对称矩阵

1.4 分解方法

  分解方法与对角化是一样的,都是先求特征值,再求特征向量,最后求得矩阵Q和∑。因为Q是标准正交阵,最后不需要求逆,只要转置就好,计算量更加的小

1.5 谱分解的其他意义

  如果把谱分解式子乘开,可得
A = λ 1 ∗ v 1 ∗ v 1 T + . . . . + λ n ∗ v n ∗ v n T A = λ1*v1*v1^T+....+λn*vn*vn^T A=λ1v1v1T+....+λnvnvnT
  因为vi都是标准正交基,所以A可以看做是vi的投影矩阵的线性组合

1.6 谱分解的应用

  谱分解的主要应用在坐标变换上,能够把二次型曲线通过谱分解变换到标准位置,比如椭圆,可以把长轴和短轴变换到坐标轴上来,能够使得计算更加方便。在二次型中,得到的特征向量方向就是二次型的极值存在的方向,比如椭圆的长轴和短轴方向。而特征值标准二次型的极值,比如椭圆的长轴和短轴大小。

  下面介绍如何通过谱分解,把二次型变换到标准位置。假设二次型为X^T*A*X

  首先通过变量代换,令Y = p*X,p是标准正交基矩阵,也就是A的特征向量矩阵,X = pT*Y可得

X T ∗ A ∗ X = Y T ∗ P ∗ A ∗ P T ∗ Y = Y T ∗ ∑ ∗ Y X^T*A*X = Y^T*P*A*P^T*Y = Y^T*∑*Y XTAX=YTPAPTY=YTY
  我们看出,通过谱分解代换,可以将原来的二次型变换成了一个没有交叉相乘项的二次型,也就是特征值矩阵。

2. 复数矩阵与酉矩阵

2.1 复数向量

2.1.1 复数向量的模长

∣ ∣ Z ∣ ∣ = z ˉ T ∗ z ||Z||=\bar{z}^T*z Z=zˉTz

2.1.2 复数向量的内积

( x ˉ ) T ∗ y (\bar{x})^T*y (xˉ)Ty

2.1.3 复数向量的正交

( q i ˉ ) T ∗ q j (\bar{qi})^T*qj (qiˉ)Tqj

2.2 复数矩阵

2.2.1 复数矩阵的对称

A ˉ T = A \bar{A}^T=A AˉT=A

2.2.1 复正交矩阵–酉矩阵

Q ˉ T ∗ Q = I \bar{Q}^T*Q=I QˉTQ=I

3. 二次型

3.1 二次型的定义

  假设有未知变量xi组成的向量
X = { x 1 . . . x n } X = \left\{\begin{matrix}x_1 &...& x_n\end{matrix}\right\} X={x1...xn}
 A是一个对称矩阵,二次型
Q ( X ) = X T ∗ A ∗ X Q(X)=X^T*A*X Q(X)=XTAX
  其方程形式为
c 1 ∗ x 1 2 + . . . . + c n ∗ x n 2 + d 1 ∗ x 1 ∗ x 2 + . . . + d m ∗ x i ∗ x j c_1*x_1^2+....+c_n*x_n^2+d1*x_1*x_2+...+d_m*x_i*x_j c1x12+....+cnxn2+d1x1x2+...+dmxixj
  如果A是一个2x2的矩阵的话,对应的二次型不外乎椭圆和双曲线两种,如果是nxn矩阵的话,对应的二次型包括碗面(正定或负定的二次型)、抛物面(半正定或者半负定的二次型)、马鞍面(不定的二次型)等

3.2 二次型系数与矩阵的对应关系

3.2.1 二次型系数与矩阵A的关系

  因为A是对称矩阵,所以二次型系数和矩阵A的元素之间存在以下关系:对称矩阵A的对角线位置(i,i)放置的是xi^2的系数。其余对称位置(i,j)放置的是xi*xj的系数的一半
假 设 Q ( x ) = a x 1 2 + b x 2 2 + c x 3 2 + d ∗ x 1 x 2 + e ∗ x 1 x 3 + f ∗ x 2 x 3 假设Q(x)=ax1^2+bx2^2+cx3^2+d*x1x2+e*x1x3+f*x2x3 Q(x)=ax12+bx22+cx32+dx1x2+ex1x3+fx2x3
则 A = { a d / 2 e / 2 d / 2 b f / 2 e / 2 f / 2 c } 则 A = \left\{\begin{matrix}a &d/2& e/2\\d/2&b&f/2\\e/2&f/2&c\end{matrix}\right\} A=ad/2e/2d/2bf/2e/2f/2c

3.2.2 二次型系数与矩阵A的最简形的关系

  主元位置放置的是配方以后平方项的系数

3.3 主轴定理(同谱分解的应用)

3.3.1 基于变量代换的二次型简化

  下面介绍如何通过谱分解,把二次型变换到标准位置。假设二次型为XT*A*X

  首先通过变量代换,令Y = p*X,p是标准正交基矩阵,也就是A的特征向量矩阵,X = pT*Y可得

X T ∗ A ∗ X = Y T ∗ P ∗ A ∗ P T ∗ Y = Y T ∗ ∑ ∗ Y X^T*A*X = Y^T*P*A*P^T*Y = Y^T*∑*Y XTAX=YTPAPTY=YTY
  我们看出,通过谱分解代换,可以将原来的二次型变换成了一个没有交叉相乘项的二次型,也就是特征值矩阵。

3.3.2 二次型矩阵A的特征值和特征向量的含义

  在二次型中,得到的特征向量方向就是二次型的极值存在的方向,比如椭圆的长轴和短轴方向。而特征值标准二次型的极值,比如椭圆的长轴和短轴大小。

3.3.3 主轴定理的几何意义

  主轴定理将任一二次图形变换到标准位置。

3.4 二次型的分类

  • 正定的:特征值全部大于0
  • 负定的:特征值全部小于0
  • 不定的:特征值有大于0的,也有小于0的
  • 半正定的:特征值大于等于0

3.5 正定矩阵

3.5.1 正定矩阵的定义

  如果对称矩阵的特征值全部大于0,那么就称这个矩阵叫做正定矩阵

3.5.2 正定矩阵的判定方法
  • 正定矩阵的二次型恒大于0
  • 所有特征值都是正数
  • 所有主元都是正数
  • 所有子行列式都是正数
3.5.3 正定矩阵与最小二乘

A T ∗ A 必 定 是 正 定 矩 阵 A^T*A必定是正定矩阵 ATA
  在最小二乘部分有证明,此处略

4. 相似矩阵

  相似具有具有相同的特征值,但是一般不具有相同的特征向量,如果说A和B相似,则二者有如下关系
A = S − 1 ∗ B ∗ S A = S^{-1}*B*S A=S1BS
  举例–特征值的矩阵
λ = S − 1 ∗ A ∗ S λ = S^{-1}*A*S λ=S1AS
  所以A的特征值矩阵和A其实是相似的

5 奇异值分解

5.1 奇异值分解的含义

  奇异值分解来源于如下的向量变换,将空间行向量v变换为列空间向量u,其中σ叫做奇异值
A ∗ V = σ ∗ u A*V = σ*u AV=σu
  矩阵形式为
A = U ∗ ∑ ∗ V T A = U*∑*V^T A=UVT
  奇异值分解实际上就是将矩阵A分解为两个正交矩阵U、V和一个对角阵∑的过程。如果A是mxn的,那么U是mxm的,∑是mxn的,V是nxn的

5.2 奇异值分解的条件

  任何矩阵都可以做奇异值分解

5.3 奇异值分解的方法

5.3.1 法1

  第一种方法是分别求AT*A和A*A^T的特征向量,因为
A T ∗ A = V ∗ ( ∑ ) 2 ∗ V T A^T*A = V*(∑)^2*V^T ATA=V()2VT

A ∗ A T = U ∗ ( ∑ ) 2 ∗ U T A*A^T = U*(∑)^2*U^T AAT=U()2UT
  同时可知A的奇异值就是AT*A的特征值开根号

5.3.2 法2

  第二种方法是利用定义求U
A T ∗ A = V ∗ ( ∑ ) 2 ∗ V T A^T*A = V*(∑)^2*V^T ATA=V()2VT
  上式可以求得特征向量v和奇异值σ
A ∗ v = σ ∗ u A*v = σ*u Av=σu

u = A ∗ V ∣ ∣ σ ∣ ∣ u = \frac{A*V}{||σ||} u=σAV

5.4 长方形矩阵的奇异值分解

5.4.1 m>n型

  m>n型的矩阵是细长的,因为左奇异矩阵U必须是m*m的,但是特征值至多有n个,其余不足的应该利用正交性质 u1*u2 = 0,也就是解uT*x=0,从左零空间里面获得基向量,同时注意应该做施密特正交化得到标准正交向量

5.4.2 n>n型

  n>m型矩阵是矮胖的,因为右奇异矩阵V必须是n*n的,而特征值至多有m个,不足以获得足够的v向量,其余的应该利用正交特征,利用 A*X = 0,从零空间里面补充基向量,同时也应该做施密特正交化变成标准正交矩阵

5.5 奇异值分解深度剖析

  这里来分析一下v向量和u向量的组成成分
A ∗ v = u A*v = u Av=u
  通过上式,我们知道,A的重新线性组合必然也还在其列空间内,所以,向量u应该属于A的列空间,而其余一部分u必须与u1等向量正交,与列空间正交的向量位于左零空间中,所以左奇异矩阵的向量来源为列空间和左零空间,正好列空间与左零空间基向量的和为m

A ∗ v r + 1 = 0 A*v_{r+1}=0 Avr+1=0
  因为并不是所有的奇异值都是非零值,当大于标号r以后的奇异值都是零值。所以,我们得到了上面的式子,可以说明,向量v的一部分成分为A的零空间。而另外一部分v与向量vr+1等正交,零空间的正交向量位于行空间中,所以v实际上来源为零空间和行空间的基向量,正好零空间和行空间的基向量和为n

5.6 奇异值分解的应用

5.6.1 误差估算

  如果最大的奇异值和最小的奇异值差距过大,那么有微小误差引入会使得系统有较大的误差

5.6.2 分解得四个子空间的基向量
5.6.3 估计A的秩

  A的秩基本上就是非零奇异值的个数

6. 主成分分析

6.1 含义

  主成分分析主要用于数据的降维

6.2 步骤

6.2.1数据中心化

X ˉ = ∑ ( x i ) n \bar{X} = ∑\frac{(x_i)}{n} Xˉ=n(xi)
x i ^ = x i − X ˉ \hat{x_i} = x_i - \bar{X} xi^=xiXˉ

6.2.2 直线拟合

  将数据中心化以后,我们需要在这组数据沿着那条直线分散最大,也就是方程越大,因为数据分散度比较大,也就意味着能够提供的信息量越大。我们假设选定一个方向向量v,让所有数据点在方向向量上投影,投影量的方差作为评价依据,方差越大,分散度越大

  我们求数据在某个方向上的方差,则
Q ( x ) = ∑ ( x i ∗ v − X ˉ ∗ v ) 2 n − 1 Q(x)=∑\frac{(xi*v-\bar{X}*v)^2}{n-1} Q(x)=n1(xivXˉv)2
  也就是xi在方向v上的投影-平均在v方向上的投影,求投影量的方差,因为做过了数据中心化,均值为0,则有
Q ( x ) = ∑ ( x i ∗ v ) 2 n − 1 = v T ∗ ∑ x i T ∗ x i n − 1 ∗ v = v T ∗ X T ∗ X n − 1 ∗ v Q(x)=∑\frac{(xi*v)^2}{n-1}=v^T*∑\frac{xi^T*xi}{n-1}*v=v^T*\frac{X^T*X}{n-1}*v Q(x)=n1(xiv)2=vTn1xiTxiv=vTn1XTXv

其 中 令 ∑ = ∑ x i T ∗ x i n − 1 , ∑ 数 据 的 协 方 差 其中令∑=∑\frac{xi^T*xi}{n-1},∑数据的协方差 =n1xiTxi

6.2.3 用拉格朗日乘数法解向量方向v

  约束条件为方向向量的模为1
L = v T ∗ ∑ ∗ v + λ ( 1 − v T ∗ v ) L = v^T*∑*v+λ(1-v^T*v) L=vTv+λ(1vTv)
  L对v的导数为0,可得

∑ ∗ v = λ ∗ v ∑*v=λ*v v=λv
  所以最大分散方向,其实就是协方差矩阵的特征向量,这些方向叫做主成分

6.2.4 用特征值评定各个主成分的价值量高低

  特征值占所有特征值的和比例越大,含有有效信息的比例越高。如果一些主成分特征值的比例和高于百分之九十几了,剩余的主成分可以抛弃不要了,就起到了数据降维的作用。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值