【线性代数及其应用】08 - 对称矩阵及二次型

最新推荐文章于 2024-12-18 16:47:04 发布

Ciaran-byte

最新推荐文章于 2024-12-18 16:47:04 发布

阅读量2.4k

点赞数 1

分类专栏：数学基础文章标签：线性代数

本文链接：https://blog.csdn.net/qq_41741344/article/details/107699167

版权

数学基础专栏收录该内容

46 篇文章

订阅专栏

对称矩阵与二次型

文章目录

对称矩阵与二次型

1 实对称矩阵的对角化-谱分解

1.1 含义

谱分解又叫做对称矩阵的对角化，也就是说，必须是能进行对角化的对称矩阵，才能进行谱分解。

1.2 实对称矩阵的特征向量是正交的

$根据对角化 A = S*λ*S^{-1}$
因为A是对称矩阵，有A=A^T

$A^T = (S^{-1})^T*λ^T*S^T=S*λ*S^{-1}$
所以有S^-1=S^T

可知S必定是一个标准正交阵，原对角分解可化为
$A = Q*∑*Q^T$

1.3 分解条件

谱分解的条件是矩阵A必须是能进行对角化的对称矩阵

1.4 分解方法

分解方法与对角化是一样的，都是先求特征值，再求特征向量，最后求得矩阵Q和∑。因为Q是标准正交阵，最后不需要求逆，只要转置就好，计算量更加的小

1.5 谱分解的其他意义

如果把谱分解式子乘开，可得
$A = λ1*v1*v1^T+....+λn*vn*vn^T$
因为vi都是标准正交基，所以A可以看做是vi的投影矩阵的线性组合

1.6 谱分解的应用

谱分解的主要应用在坐标变换上，能够把二次型曲线通过谱分解变换到标准位置，比如椭圆，可以把长轴和短轴变换到坐标轴上来，能够使得计算更加方便。在二次型中，得到的特征向量方向就是二次型的极值存在的方向，比如椭圆的长轴和短轴方向。而特征值标准二次型的极值，比如椭圆的长轴和短轴大小。

下面介绍如何通过谱分解，把二次型变换到标准位置。假设二次型为X^T*A*X

首先通过变量代换，令Y = p*X，p是标准正交基矩阵，也就是A的特征向量矩阵，X = p^T*Y可得

$X^T*A*X = Y^T*P*A*P^T*Y = Y^T*∑*Y$
我们看出，通过谱分解代换，可以将原来的二次型变换成了一个没有交叉相乘项的二次型，也就是特征值矩阵。

2. 复数矩阵与酉矩阵

2.1 复数向量

2.1.1 复数向量的模长

$||Z||=\bar{z}^T*z$

2.1.2 复数向量的内积

$(\bar{x})^T*y$

2.1.3 复数向量的正交

$(\bar{qi})^T*qj$

2.2 复数矩阵

2.2.1 复数矩阵的对称

$\bar{A}^T=A$

2.2.1 复正交矩阵–酉矩阵

$\bar{Q}^T*Q=I$

3. 二次型

3.1 二次型的定义

假设有未知变量xi组成的向量
$\left\{\begin{matrix}x_1 &...& x_n\end{matrix}\right\}$
A是一个对称矩阵，二次型
$Q(X)=X^T*A*X$
其方程形式为
$c_1*x_1^2+....+c_n*x_n^2+d1*x_1*x_2+...+d_m*x_i*x_j$
如果A是一个2x2的矩阵的话，对应的二次型不外乎椭圆和双曲线两种，如果是nxn矩阵的话，对应的二次型包括碗面（正定或负定的二次型）、抛物面（半正定或者半负定的二次型）、马鞍面（不定的二次型）等

3.2 二次型系数与矩阵的对应关系

3.2.1 二次型系数与矩阵A的关系

因为A是对称矩阵，所以二次型系数和矩阵A的元素之间存在以下关系：对称矩阵A的对角线位置(i,i)放置的是xi^2的系数。其余对称位置(i,j)放置的是xi*xj的系数的一半
$假设Q(x)=ax1^2+bx2^2+cx3^2+d*x1x2+e*x1x3+f*x2x3$
$\left\{\begin{matrix}a &d/2& e/2\\d/2&b&f/2\\e/2&f/2&c\end{matrix}\right\}$

3.2.2 二次型系数与矩阵A的最简形的关系

主元位置放置的是配方以后平方项的系数

3.3 主轴定理（同谱分解的应用)

3.3.1 基于变量代换的二次型简化

下面介绍如何通过谱分解，把二次型变换到标准位置。假设二次型为X^T*A*X

首先通过变量代换，令Y = p*X，p是标准正交基矩阵，也就是A的特征向量矩阵，X = p^T*Y可得

$X^T*A*X = Y^T*P*A*P^T*Y = Y^T*∑*Y$
我们看出，通过谱分解代换，可以将原来的二次型变换成了一个没有交叉相乘项的二次型，也就是特征值矩阵。

3.3.2 二次型矩阵A的特征值和特征向量的含义

在二次型中，得到的特征向量方向就是二次型的极值存在的方向，比如椭圆的长轴和短轴方向。而特征值标准二次型的极值，比如椭圆的长轴和短轴大小。

3.3.3 主轴定理的几何意义

主轴定理将任一二次图形变换到标准位置。

3.4 二次型的分类

正定的：特征值全部大于0
负定的：特征值全部小于0
不定的：特征值有大于0的，也有小于0的
半正定的：特征值大于等于0

3.5 正定矩阵

3.5.1 正定矩阵的定义

如果对称矩阵的特征值全部大于0，那么就称这个矩阵叫做正定矩阵

3.5.2 正定矩阵的判定方法

正定矩阵的二次型恒大于0
所有特征值都是正数
所有主元都是正数
所有子行列式都是正数

3.5.3 正定矩阵与最小二乘

$A^T*A必定是正定矩阵$
在最小二乘部分有证明，此处略

4. 相似矩阵

相似具有具有相同的特征值，但是一般不具有相同的特征向量，如果说A和B相似，则二者有如下关系
$A = S^{-1}*B*S$
举例–特征值的矩阵
$λ = S^{-1}*A*S$
所以A的特征值矩阵和A其实是相似的

5 奇异值分解

5.1 奇异值分解的含义

奇异值分解来源于如下的向量变换，将空间行向量v变换为列空间向量u，其中σ叫做奇异值
$A * V = σ * u$
矩阵形式为
$A = U*∑*V^T$
奇异值分解实际上就是将矩阵A分解为两个正交矩阵U、V和一个对角阵∑的过程。如果A是mxn的，那么U是mxm的，∑是mxn的，V是nxn的

5.2 奇异值分解的条件

任何矩阵都可以做奇异值分解

5.3 奇异值分解的方法

5.3.1 法1

第一种方法是分别求A^T*A和A*A^T的特征向量，因为
$A^T*A = V*(∑)^2*V^T$

$A*A^T = U*(∑)^2*U^T$
同时可知A的奇异值就是A^T*A的特征值开根号

5.3.2 法2

第二种方法是利用定义求U
$A^T*A = V*(∑)^2*V^T$
上式可以求得特征向量v和奇异值σ
$A * v = σ * u$

$\frac{A*V}{||σ||}$

5.4 长方形矩阵的奇异值分解

5.4.1 m>n型

m>n型的矩阵是细长的，因为左奇异矩阵U必须是m*m的，但是特征值至多有n个，其余不足的应该利用正交性质 u1*u2 = 0，也就是解u^T*x=0,从左零空间里面获得基向量，同时注意应该做施密特正交化得到标准正交向量

5.4.2 n>n型

n>m型矩阵是矮胖的，因为右奇异矩阵V必须是n*n的，而特征值至多有m个，不足以获得足够的v向量，其余的应该利用正交特征，利用 A*X = 0，从零空间里面补充基向量，同时也应该做施密特正交化变成标准正交矩阵

5.5 奇异值分解深度剖析

这里来分析一下v向量和u向量的组成成分
$A * v = u$
通过上式，我们知道，A的重新线性组合必然也还在其列空间内，所以，向量u应该属于A的列空间，而其余一部分u必须与u1等向量正交，与列空间正交的向量位于左零空间中，所以左奇异矩阵的向量来源为列空间和左零空间，正好列空间与左零空间基向量的和为m

$A*v_{r+1}=0$
因为并不是所有的奇异值都是非零值，当大于标号r以后的奇异值都是零值。所以，我们得到了上面的式子，可以说明，向量v的一部分成分为A的零空间。而另外一部分v与向量vr+1等正交，零空间的正交向量位于行空间中，所以v实际上来源为零空间和行空间的基向量，正好零空间和行空间的基向量和为n

5.6 奇异值分解的应用

5.6.1 误差估算

如果最大的奇异值和最小的奇异值差距过大，那么有微小误差引入会使得系统有较大的误差

5.6.2 分解得四个子空间的基向量

5.6.3 估计A的秩

A的秩基本上就是非零奇异值的个数

6. 主成分分析

6.1 含义

主成分分析主要用于数据的降维

6.2 步骤

6.2.1数据中心化

$\bar{X} = ∑\frac{(x_i)}{n}$
$\hat{x_i} = x_i - \bar{X}$

6.2.2 直线拟合

将数据中心化以后，我们需要在这组数据沿着那条直线分散最大，也就是方程越大，因为数据分散度比较大，也就意味着能够提供的信息量越大。我们假设选定一个方向向量v，让所有数据点在方向向量上投影，投影量的方差作为评价依据，方差越大，分散度越大

我们求数据在某个方向上的方差，则
$Q(x)=∑\frac{(xi*v-\bar{X}*v)^2}{n-1}$
也就是xi在方向v上的投影-平均在v方向上的投影，求投影量的方差，因为做过了数据中心化，均值为0，则有
$Q(x)=∑\frac{(xi*v)^2}{n-1}=v^T*∑\frac{xi^T*xi}{n-1}*v=v^T*\frac{X^T*X}{n-1}*v$