对称矩阵与二次型
1 实对称矩阵的对角化-谱分解
1.1 含义
谱分解又叫做对称矩阵的对角化,也就是说,必须是能进行对角化的对称矩阵,才能进行谱分解。
1.2 实对称矩阵的特征向量是正交的
根
据
对
角
化
A
=
S
∗
λ
∗
S
−
1
根据对角化 A = S*λ*S^{-1}
根据对角化A=S∗λ∗S−1
因为A是对称矩阵,有A=A^T
A
T
=
(
S
−
1
)
T
∗
λ
T
∗
S
T
=
S
∗
λ
∗
S
−
1
A^T = (S^{-1})^T*λ^T*S^T=S*λ*S^{-1}
AT=(S−1)T∗λT∗ST=S∗λ∗S−1
所以有S-1=ST
可知S必定是一个标准正交阵,原对角分解可化为
A
=
Q
∗
∑
∗
Q
T
A = Q*∑*Q^T
A=Q∗∑∗QT
1.3 分解条件
谱分解的条件是矩阵A必须是能进行对角化的对称矩阵
1.4 分解方法
分解方法与对角化是一样的,都是先求特征值,再求特征向量,最后求得矩阵Q和∑。因为Q是标准正交阵,最后不需要求逆,只要转置就好,计算量更加的小
1.5 谱分解的其他意义
如果把谱分解式子乘开,可得
A
=
λ
1
∗
v
1
∗
v
1
T
+
.
.
.
.
+
λ
n
∗
v
n
∗
v
n
T
A = λ1*v1*v1^T+....+λn*vn*vn^T
A=λ1∗v1∗v1T+....+λn∗vn∗vnT
因为vi都是标准正交基,所以A可以看做是vi的投影矩阵的线性组合
1.6 谱分解的应用
谱分解的主要应用在坐标变换上,能够把二次型曲线通过谱分解变换到标准位置,比如椭圆,可以把长轴和短轴变换到坐标轴上来,能够使得计算更加方便。在二次型中,得到的特征向量方向就是二次型的极值存在的方向,比如椭圆的长轴和短轴方向。而特征值标准二次型的极值,比如椭圆的长轴和短轴大小。
下面介绍如何通过谱分解,把二次型变换到标准位置。假设二次型为X^T*A*X
首先通过变量代换,令Y = p*X,p是标准正交基矩阵,也就是A的特征向量矩阵,X = pT*Y可得
X
T
∗
A
∗
X
=
Y
T
∗
P
∗
A
∗
P
T
∗
Y
=
Y
T
∗
∑
∗
Y
X^T*A*X = Y^T*P*A*P^T*Y = Y^T*∑*Y
XT∗A∗X=YT∗P∗A∗PT∗Y=YT∗∑∗Y
我们看出,通过谱分解代换,可以将原来的二次型变换成了一个没有交叉相乘项的二次型,也就是特征值矩阵。
2. 复数矩阵与酉矩阵
2.1 复数向量
2.1.1 复数向量的模长
∣ ∣ Z ∣ ∣ = z ˉ T ∗ z ||Z||=\bar{z}^T*z ∣∣Z∣∣=zˉT∗z
2.1.2 复数向量的内积
( x ˉ ) T ∗ y (\bar{x})^T*y (xˉ)T∗y
2.1.3 复数向量的正交
( q i ˉ ) T ∗ q j (\bar{qi})^T*qj (qiˉ)T∗qj
2.2 复数矩阵
2.2.1 复数矩阵的对称
A ˉ T = A \bar{A}^T=A AˉT=A
2.2.1 复正交矩阵–酉矩阵
Q ˉ T ∗ Q = I \bar{Q}^T*Q=I QˉT∗Q=I
3. 二次型
3.1 二次型的定义
假设有未知变量xi组成的向量
X
=
{
x
1
.
.
.
x
n
}
X = \left\{\begin{matrix}x_1 &...& x_n\end{matrix}\right\}
X={x1...xn}
A是一个对称矩阵,二次型
Q
(
X
)
=
X
T
∗
A
∗
X
Q(X)=X^T*A*X
Q(X)=XT∗A∗X
其方程形式为
c
1
∗
x
1
2
+
.
.
.
.
+
c
n
∗
x
n
2
+
d
1
∗
x
1
∗
x
2
+
.
.
.
+
d
m
∗
x
i
∗
x
j
c_1*x_1^2+....+c_n*x_n^2+d1*x_1*x_2+...+d_m*x_i*x_j
c1∗x12+....+cn∗xn2+d1∗x1∗x2+...+dm∗xi∗xj
如果A是一个2x2的矩阵的话,对应的二次型不外乎椭圆和双曲线两种,如果是nxn矩阵的话,对应的二次型包括碗面(正定或负定的二次型)、抛物面(半正定或者半负定的二次型)、马鞍面(不定的二次型)等
3.2 二次型系数与矩阵的对应关系
3.2.1 二次型系数与矩阵A的关系
因为A是对称矩阵,所以二次型系数和矩阵A的元素之间存在以下关系:对称矩阵A的对角线位置(i,i)放置的是xi^2的系数。其余对称位置(i,j)放置的是xi*xj的系数的一半
假
设
Q
(
x
)
=
a
x
1
2
+
b
x
2
2
+
c
x
3
2
+
d
∗
x
1
x
2
+
e
∗
x
1
x
3
+
f
∗
x
2
x
3
假设Q(x)=ax1^2+bx2^2+cx3^2+d*x1x2+e*x1x3+f*x2x3
假设Q(x)=ax12+bx22+cx32+d∗x1x2+e∗x1x3+f∗x2x3
则
A
=
{
a
d
/
2
e
/
2
d
/
2
b
f
/
2
e
/
2
f
/
2
c
}
则 A = \left\{\begin{matrix}a &d/2& e/2\\d/2&b&f/2\\e/2&f/2&c\end{matrix}\right\}
则A=⎩⎨⎧ad/2e/2d/2bf/2e/2f/2c⎭⎬⎫
3.2.2 二次型系数与矩阵A的最简形的关系
主元位置放置的是配方以后平方项的系数
3.3 主轴定理(同谱分解的应用)
3.3.1 基于变量代换的二次型简化
下面介绍如何通过谱分解,把二次型变换到标准位置。假设二次型为XT*A*X
首先通过变量代换,令Y = p*X,p是标准正交基矩阵,也就是A的特征向量矩阵,X = pT*Y可得
X
T
∗
A
∗
X
=
Y
T
∗
P
∗
A
∗
P
T
∗
Y
=
Y
T
∗
∑
∗
Y
X^T*A*X = Y^T*P*A*P^T*Y = Y^T*∑*Y
XT∗A∗X=YT∗P∗A∗PT∗Y=YT∗∑∗Y
我们看出,通过谱分解代换,可以将原来的二次型变换成了一个没有交叉相乘项的二次型,也就是特征值矩阵。
3.3.2 二次型矩阵A的特征值和特征向量的含义
在二次型中,得到的特征向量方向就是二次型的极值存在的方向,比如椭圆的长轴和短轴方向。而特征值标准二次型的极值,比如椭圆的长轴和短轴大小。
3.3.3 主轴定理的几何意义
主轴定理将任一二次图形变换到标准位置。
3.4 二次型的分类
- 正定的:特征值全部大于0
- 负定的:特征值全部小于0
- 不定的:特征值有大于0的,也有小于0的
- 半正定的:特征值大于等于0
3.5 正定矩阵
3.5.1 正定矩阵的定义
如果对称矩阵的特征值全部大于0,那么就称这个矩阵叫做正定矩阵
3.5.2 正定矩阵的判定方法
- 正定矩阵的二次型恒大于0
- 所有特征值都是正数
- 所有主元都是正数
- 所有子行列式都是正数
3.5.3 正定矩阵与最小二乘
A
T
∗
A
必
定
是
正
定
矩
阵
A^T*A必定是正定矩阵
AT∗A必定是正定矩阵
在最小二乘部分有证明,此处略
4. 相似矩阵
相似具有具有相同的特征值,但是一般不具有相同的特征向量,如果说A和B相似,则二者有如下关系
A
=
S
−
1
∗
B
∗
S
A = S^{-1}*B*S
A=S−1∗B∗S
举例–特征值的矩阵
λ
=
S
−
1
∗
A
∗
S
λ = S^{-1}*A*S
λ=S−1∗A∗S
所以A的特征值矩阵和A其实是相似的
5 奇异值分解
5.1 奇异值分解的含义
奇异值分解来源于如下的向量变换,将空间行向量v变换为列空间向量u,其中σ叫做奇异值
A
∗
V
=
σ
∗
u
A*V = σ*u
A∗V=σ∗u
矩阵形式为
A
=
U
∗
∑
∗
V
T
A = U*∑*V^T
A=U∗∑∗VT
奇异值分解实际上就是将矩阵A分解为两个正交矩阵U、V和一个对角阵∑的过程。如果A是mxn的,那么U是mxm的,∑是mxn的,V是nxn的
5.2 奇异值分解的条件
任何矩阵都可以做奇异值分解
5.3 奇异值分解的方法
5.3.1 法1
第一种方法是分别求AT*A和A*A^T的特征向量,因为
A
T
∗
A
=
V
∗
(
∑
)
2
∗
V
T
A^T*A = V*(∑)^2*V^T
AT∗A=V∗(∑)2∗VT
A
∗
A
T
=
U
∗
(
∑
)
2
∗
U
T
A*A^T = U*(∑)^2*U^T
A∗AT=U∗(∑)2∗UT
同时可知A的奇异值就是AT*A的特征值开根号
5.3.2 法2
第二种方法是利用定义求U
A
T
∗
A
=
V
∗
(
∑
)
2
∗
V
T
A^T*A = V*(∑)^2*V^T
AT∗A=V∗(∑)2∗VT
上式可以求得特征向量v和奇异值σ
A
∗
v
=
σ
∗
u
A*v = σ*u
A∗v=σ∗u
u = A ∗ V ∣ ∣ σ ∣ ∣ u = \frac{A*V}{||σ||} u=∣∣σ∣∣A∗V
5.4 长方形矩阵的奇异值分解
5.4.1 m>n型
m>n型的矩阵是细长的,因为左奇异矩阵U必须是m*m的,但是特征值至多有n个,其余不足的应该利用正交性质 u1*u2 = 0,也就是解uT*x=0,从左零空间里面获得基向量,同时注意应该做施密特正交化得到标准正交向量
5.4.2 n>n型
n>m型矩阵是矮胖的,因为右奇异矩阵V必须是n*n的,而特征值至多有m个,不足以获得足够的v向量,其余的应该利用正交特征,利用 A*X = 0,从零空间里面补充基向量,同时也应该做施密特正交化变成标准正交矩阵
5.5 奇异值分解深度剖析
这里来分析一下v向量和u向量的组成成分
A
∗
v
=
u
A*v = u
A∗v=u
通过上式,我们知道,A的重新线性组合必然也还在其列空间内,所以,向量u应该属于A的列空间,而其余一部分u必须与u1等向量正交,与列空间正交的向量位于左零空间中,所以左奇异矩阵的向量来源为列空间和左零空间,正好列空间与左零空间基向量的和为m
A
∗
v
r
+
1
=
0
A*v_{r+1}=0
A∗vr+1=0
因为并不是所有的奇异值都是非零值,当大于标号r以后的奇异值都是零值。所以,我们得到了上面的式子,可以说明,向量v的一部分成分为A的零空间。而另外一部分v与向量vr+1等正交,零空间的正交向量位于行空间中,所以v实际上来源为零空间和行空间的基向量,正好零空间和行空间的基向量和为n
5.6 奇异值分解的应用
5.6.1 误差估算
如果最大的奇异值和最小的奇异值差距过大,那么有微小误差引入会使得系统有较大的误差
5.6.2 分解得四个子空间的基向量
5.6.3 估计A的秩
A的秩基本上就是非零奇异值的个数
6. 主成分分析
6.1 含义
主成分分析主要用于数据的降维
6.2 步骤
6.2.1数据中心化
X
ˉ
=
∑
(
x
i
)
n
\bar{X} = ∑\frac{(x_i)}{n}
Xˉ=∑n(xi)
x
i
^
=
x
i
−
X
ˉ
\hat{x_i} = x_i - \bar{X}
xi^=xi−Xˉ
6.2.2 直线拟合
将数据中心化以后,我们需要在这组数据沿着那条直线分散最大,也就是方程越大,因为数据分散度比较大,也就意味着能够提供的信息量越大。我们假设选定一个方向向量v,让所有数据点在方向向量上投影,投影量的方差作为评价依据,方差越大,分散度越大
我们求数据在某个方向上的方差,则
Q
(
x
)
=
∑
(
x
i
∗
v
−
X
ˉ
∗
v
)
2
n
−
1
Q(x)=∑\frac{(xi*v-\bar{X}*v)^2}{n-1}
Q(x)=∑n−1(xi∗v−Xˉ∗v)2
也就是xi在方向v上的投影-平均在v方向上的投影,求投影量的方差,因为做过了数据中心化,均值为0,则有
Q
(
x
)
=
∑
(
x
i
∗
v
)
2
n
−
1
=
v
T
∗
∑
x
i
T
∗
x
i
n
−
1
∗
v
=
v
T
∗
X
T
∗
X
n
−
1
∗
v
Q(x)=∑\frac{(xi*v)^2}{n-1}=v^T*∑\frac{xi^T*xi}{n-1}*v=v^T*\frac{X^T*X}{n-1}*v
Q(x)=∑n−1(xi∗v)2=vT∗∑n−1xiT∗xi∗v=vT∗n−1XT∗X∗v
其 中 令 ∑ = ∑ x i T ∗ x i n − 1 , ∑ 数 据 的 协 方 差 其中令∑=∑\frac{xi^T*xi}{n-1},∑数据的协方差 其中令∑=∑n−1xiT∗xi,∑数据的协方差
6.2.3 用拉格朗日乘数法解向量方向v
约束条件为方向向量的模为1
L
=
v
T
∗
∑
∗
v
+
λ
(
1
−
v
T
∗
v
)
L = v^T*∑*v+λ(1-v^T*v)
L=vT∗∑∗v+λ(1−vT∗v)
L对v的导数为0,可得
∑
∗
v
=
λ
∗
v
∑*v=λ*v
∑∗v=λ∗v
所以最大分散方向,其实就是协方差矩阵的特征向量,这些方向叫做主成分
6.2.4 用特征值评定各个主成分的价值量高低
特征值占所有特征值的和比例越大,含有有效信息的比例越高。如果一些主成分特征值的比例和高于百分之九十几了,剩余的主成分可以抛弃不要了,就起到了数据降维的作用。