1.重新理解 Ax=b
1.从矩阵A的行和列去分析有两种解释
- 行视图理解:每行是一个超平面,各行的交点(面)是x的解,不相交x无解
- 列视图理解:x为权重,对A的每列加权线性组合,即空间中向量相加(利用平行四边形法则)
2.列视图理解线性相关和线性无关:
- 二维:向量不共线;三维:向量不共面;若矩阵A列线性无关,则Ax=0的解只有x=0,此时A可逆
3.四个基本子空间(A为 m∗n 维矩阵)
- 子空间表示:用基表示,更喜欢用正交基表示。类似用坐标轴表示空间
- 列空间:A的所有列的线性组合
y=Ax
,x取任何值的向量,是
Rm
的子空间,列空间的基的个数为A的线性无关的列数
为什么是子空间:全空间由列向量长度m决定,列空间基的个数一定小于等于列向量长度,所以列空间一定是 Rm 的一个子空间。 - 零空间: Ax=0 所有解的集合,即满足条件的向量x的所有取值,是 Rn 的子空间,因为向量长度为n。零空间的基的个数为n-A的线性无关的行数
- 行空间:行的线性组合
- 左零空间: ATy=0 所有向量y的取值
- 列空间与左零空间共同构成 Rm 空间,且相互正交,只有一个零交点
- 列满秩矩阵无零空间,行满秩矩阵无左零空间
- 用子空间解释Ax=b的解的个数:x只有一个解,没有零空间(列满秩)
2.特征分解
1.方阵对角化
1.特征值特征向量
1)定义:若
Ax=λx
,x称为A的特征向量,
λ
为对应的特征值
2)直观理解:向量x关于A做旋转,若旋转后x方向不变,仅伸缩,说明x是A的特征向量
3)目的:求特征值和特征向量是为了将方阵对角化
2. 方阵对角化
1)定义:对于
Axi=λxi
,如果所有特征都不相同,相应的所有特征向量线性无关,此时A可以被对角化
A=VΛV−1
,V为特征向量,
Λ
为特征值对角矩阵
3. 对称矩阵
1)所有特征向量正交,无论特征值是否相同都可以U相似对角化
A=UΛU−1=∑i=1nλiuiuTi
2)对称矩阵性质
a.特征值一定是实数
b.秩是r,一定有r个非零特征值
c. Rand(AAT)=Rand(A)
2.主成份分析(PCA)
- 解决问题:若矩阵 Xm×n 每列表示一个样本,则m表示特征的个数,对特征进行降维,将影响度小的特征去除
- 本质:行向量(不同样本同以特征)间的协方差为0,每个行向量的方差尽可能大(即特征间的相关性尽可能小,特征内的区分度尽可能大)
- 方法:
1)对X去均值,求 Cx=1nXXT ,该矩阵对角线为方差,其他为协方差,是对称矩阵,可以进行特征分解 Cx=UΛUT
2)设X变换后的矩阵为 Y=QX (列数n不变,因为n代表样本),求 Cy=1nYYT=1nQXXTQT=QCxQT ,要使变换后 Cy 满足PCA本质要求, Cy=Λ,Q=UT ,此时没有降维,只是表达方式改变
3)去掉小的特征值及其对应的特征向量,得到 Q′ ,降维后的矩阵 Y=Q′X - 为什么去除小的特征值
降维依据是使 Cy 改变较小,由对称矩阵的表示可知 Cy=∑mi=1λiqiqTi , λi 较小时,对 Cy 的影响较小,可以去掉。
3.SVD分解
- SVD形式
A=[U1 U2][Σ10(m−r)×r0r×(n−r)0(m−r)×(n−r)][VT1VT2]=UΣVT=U1ΣVT1=∑i=1rσiuivTi
- 性质:
1) U∈Rm×m,V∈Rn×n 是正交矩阵, σi>0
2)与A四个基本子空间的关系
a. U1 是列空间的正交基, U2 是左零空间的正交基
b. V1 是行空间的正交基, V2 是零空间的正交集
3)可以对任意矩阵进行分解 - 与特征分解(PCA)的关系与区别
关系:已知 A=UΣVT ,且每个样本去均值,则 AAT=UΣΣTUT=UΛUT ,可知 U 是AAT 的特征向量, σ2i 是 AAT 的特征值
区别:
1)一次分解,SVD可以获得两个方向的主成份,PCA只能获取单方向主成分
2)SVD降维能更好的反应数据的核心信息,SVD降维可以建立隐语义索引,如用户-电影矩阵可分解成用户-主题和电影-主题矩阵,找到用户电影与隐藏主题的关系;PCA需要对原矩阵去均值,对稀疏矩阵,丢失了矩阵稀疏性
3)SVD比PCA更稳定,因为PCA求协方差矩阵有平方操作,当值较小时计算机会丢失一部分精度 - 应用:
降维:与PCA相同,选择奇异值最大的特征向量构成 U′ ,对A行进行降维后得到 Y=U′A
数据压缩:若A为图像矩阵, A=∑ri=1σiuivTi ,当 σ 较小时,携带能量较少,对A影响交小,可以不保存,所以只需保存 σi 较大的组 (σi,ui,vi) 即可