矩阵分析与应用

最新推荐文章于 2022-05-21 14:19:38 发布

langzhining

最新推荐文章于 2022-05-21 14:19:38 发布

阅读量315

点赞数 1

分类专栏：机器学习基础文章标签：机器学习基础

本文链接：https://blog.csdn.net/langzhining/article/details/52695329

版权

机器学习基础专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.重新理解 $Ax=b$

1.从矩阵A的行和列去分析有两种解释

行视图理解：每行是一个超平面，各行的交点（面）是x的解，不相交x无解
列视图理解：x为权重，对A的每列加权线性组合，即空间中向量相加（利用平行四边形法则）

2.列视图理解线性相关和线性无关：

二维：向量不共线；三维：向量不共面；若矩阵A列线性无关，则Ax=0的解只有x=0，此时A可逆

3.四个基本子空间（A为 $m*n$ 维矩阵）

子空间表示：用基表示，更喜欢用正交基表示。类似用坐标轴表示空间
列空间：A的所有列的线性组合 $y=Ax$ ,x取任何值的向量，是 $R^m$ 的子空间，列空间的基的个数为A的线性无关的列数
为什么是子空间：全空间由列向量长度m决定，列空间基的个数一定小于等于列向量长度，所以列空间一定是 $R^m$ 的一个子空间。
零空间： $Ax=0$ 所有解的集合，即满足条件的向量x的所有取值，是 $R^n$ 的子空间，因为向量长度为n。零空间的基的个数为n-A的线性无关的行数
行空间：行的线性组合
左零空间： $A^Ty=0$ 所有向量y的取值
列空间与左零空间共同构成 $R^m$ 空间，且相互正交，只有一个零交点
列满秩矩阵无零空间，行满秩矩阵无左零空间
用子空间解释Ax=b的解的个数：x只有一个解，没有零空间（列满秩）

2.特征分解

1.方阵对角化

1.特征值特征向量
1）定义：若 $Ax=\lambda x$ ，x称为A的特征向量， $\lambda$ 为对应的特征值
2）直观理解：向量x关于A做旋转，若旋转后x方向不变，仅伸缩，说明x是A的特征向量
3）目的：求特征值和特征向量是为了将方阵对角化
2. 方阵对角化
1）定义：对于 $Ax_i=\lambda x_i$ ，如果所有特征都不相同，相应的所有特征向量线性无关，此时A可以被对角化 $A=V\Lambda V^{-1}$ ，V为特征向量， $\Lambda$ 为特征值对角矩阵
3. 对称矩阵
1）所有特征向量正交，无论特征值是否相同都可以U相似对角化

A = U Λ U - 1 = \sum i = 1 n λ i u i u T i

$A=U\Lambda U^{-1}=\sum_{i=1}^{n}\lambda_iu_iu_i^T$ 2）对称矩阵性质
a.特征值一定是实数
b.秩是r，一定有r个非零特征值
c.

Rand(AAT)=Rand(A) $Rand(AA^T)=Rand(A)$

2.主成份分析（PCA）

解决问题：若矩阵 $X^{m\times n}$ 每列表示一个样本，则m表示特征的个数，对特征进行降维，将影响度小的特征去除
本质：行向量（不同样本同以特征）间的协方差为0，每个行向量的方差尽可能大（即特征间的相关性尽可能小，特征内的区分度尽可能大）
方法：
1）对X去均值，求 $C_x=\frac1nXX^T$ ，该矩阵对角线为方差，其他为协方差，是对称矩阵，可以进行特征分解 $C_x=U\Lambda U^T$
2）设X变换后的矩阵为 $Y=QX$ (列数n不变，因为n代表样本)，求 $C_y=\frac1nYY^T=\frac1nQXX^TQ^T=QC_xQ^T$ ，要使变换后 $C_y$ 满足PCA本质要求， $C_y=\Lambda,Q=U^T$ ，此时没有降维，只是表达方式改变
3）去掉小的特征值及其对应的特征向量，得到 $Q^{'}$ ，降维后的矩阵 $Y=Q^{'}X$
为什么去除小的特征值
降维依据是使 $C_y$ 改变较小，由对称矩阵的表示可知 $C_y=\sum_{i=1}^m\lambda_i q_iq_i^T$ ， $\lambda_i$ 较小时，对 $C_y$ 的影响较小，可以去掉。

3.SVD分解

SVD形式 $A = [U 1 U 2] [Σ 1 0 (m - r) \times r 0 r \times (n - r) 0 (m - r) \times (n - r)] [V T 1 V T 2] = U Σ V T = U 1 Σ V T 1 = \sum i = 1 r σ i u i v T i$ $A=[U_1\ U_2]\begin{bmatrix} \Sigma_1&0_{r\times (n-r)} \\ 0_{(m-r)\times r}&0_{(m-r)\times (n-r)} \end{bmatrix}\begin{bmatrix} V_1^T\\V_2^T \end{bmatrix}\\=U\Sigma V^T=U_1\Sigma V_1^T=\sum_{i=1}^{r}\sigma_iu_iv_i^T$
性质：
1） $U\in R^{m\times m},\;V\in R^{n\times n}$ 是正交矩阵， $\sigma_i>0$
2）与A四个基本子空间的关系
a. $U_1$ 是列空间的正交基， $U_2$ 是左零空间的正交基
b. $V_1$ 是行空间的正交基， $V_2$ 是零空间的正交集
3）可以对任意矩阵进行分解
与特征分解（PCA）的关系与区别
关系：已知 $A=U\Sigma V^T$ ，且每个样本去均值，则 $AA^T=U\Sigma \Sigma^TU^T=U\Lambda U^T$ ，可知 $U$ 是 $AA^T$ 的特征向量， $\sigma_i^2$ 是 $AA^T$ 的特征值
区别：
1）一次分解，SVD可以获得两个方向的主成份，PCA只能获取单方向主成分
2）SVD降维能更好的反应数据的核心信息，SVD降维可以建立隐语义索引，如用户-电影矩阵可分解成用户-主题和电影-主题矩阵，找到用户电影与隐藏主题的关系；PCA需要对原矩阵去均值，对稀疏矩阵，丢失了矩阵稀疏性
3）SVD比PCA更稳定，因为PCA求协方差矩阵有平方操作，当值较小时计算机会丢失一部分精度
应用：
降维：与PCA相同，选择奇异值最大的特征向量构成 $U^{'}$ ，对A行进行降维后得到 $Y=U^{'}A$
数据压缩：若A为图像矩阵， $A=\sum_{i=1}^{r}\sigma_iu_iv_i^T$ ，当 $\sigma$ 较小时，携带能量较少，对A影响交小，可以不保存，所以只需保存 $\sigma_i$ 较大的组 $(\sigma_i,u_i,v_i)$ 即可

langzhining

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
矩阵分析与应用

1.重新理解Ax=bAx=b1.从矩阵A的行和列去分析有两种解释行视图理解：每行是一个超平面，各行的交点（面）是x的解，不相交x无解列视图理解：x为权重，对A的每列加权线性组合，即空间中向量相加（利用平行四边形法则）2.列视图理解线性相关和线性无关：二维：向量不共线；三维：向量不共面；若矩阵A列线性无关，则Ax=0的解只有x=0，此时A可逆3.四个基本子空间（A为m∗nm*n维矩阵）子空
复制链接

扫一扫