MIT18.065 数据分析、信号处理和机器学习中的矩阵方法-学习笔记

最新推荐文章于 2024-04-24 10:47:52 发布

VIP文章寒-衣调

最新推荐文章于 2024-04-24 10:47:52 发布

阅读量1.8k

点赞数 10

分类专栏：数学文章标签：线性代数算法信号处理机器学习

本文链接：https://blog.csdn.net/baidu_26296695/article/details/119959385

版权

文章目录

MIT18.065 数据分析、信号处理和机器学习中的矩阵方法

MIT18.065 数据分析、信号处理和机器学习中的矩阵方法

https://www.bilibili.com/video/BV1b4411j7V3?p=2

Lecture 1 The Column Space of A Contains All Vectors Ax

A=CR

$\left[\begin{array}{ccc} 2&1&3\\ 3&1&4\\ 5&7&12\\ \end{array}\right] =\left[\begin{array}{cc} 2&1\\ 3&1\\ 5&7\\ \end{array}\right] \left[\begin{array}{ccc} 1&0&1\\ 0&1&1\\ \end{array}\right]$

$A = C R$ ， $C$ 是从左到右取出 $A$ 中线性无关的非零列， $R$ 的列是由 $C$ 的各列组成 $A$ 的各列的线性组合的系数构成。同时 $C$ 是 $A$ 列空间的基， $R$ 是行空间的基，也可以看作 $C$ 中各行由 $R$ 的各行组成 $A$ 的各行的线性组合的系数构成。列空间和行空间的基数量相等，由此行秩=列秩。

$R$ 是 $A$ 的 $RREF(reduced\ row\ echelon\ form)$ 简化行阶梯形式（不包括全零行），即消元使得主元系数为 $1$ ，且其他行该主元系数为 $0$

A=CMR

$C$ 同上节， $R$ 是从上到下直接从 $A$ 取出的线性无关的非零行，那么 $rank(A_{m*n})=r,C_{m*r},R_{r*n},M_{r*r}$

为了求 $M$ ，注意 $C^TC,RR^T$ 满秩可逆

$C^TAR^T=C^TCMRR^T,M=(C^TC)^{-1}C^TAR^T(RR^T)^{-1}$

这个分解的意义在于保存了 $A$ 的属性和原数据， $Q R$ 分解和 $S V D$ 中这些属性丢失。例如 $A$ 非负则 $C R$ 非负， $A$ 稀疏则 $C R$ 稀疏。

Lecture 2 Multiplying and Factoring Matrices

LU分解的解释

$\left[\begin{array}{cc}2&3\\4&7\end{array}\right]$ 通过消元得到 $\left[\begin{array}{cc}2&3\\0&1\end{array}\right]$ ，第二行减去第一行的2倍
$\left[\begin{array}{cc}2&3\\4&7\end{array}\right]=\left[\begin{array}{cc}1&0\\2&1\end{array}\right]\left[\begin{array}{cc}2&3\\0&1\end{array}\right]=\left[\begin{array}{c}1\\2\end{array}\right]\left[\begin{array}{cc}2&3\end{array}\right]+\left[\begin{array}{c}0\\1\end{array}\right]\left[\begin{array}{cc}0&1\end{array}\right]=\left[\begin{array}{cc}2&3\\4&6\end{array}\right]+\left[\begin{array}{cc}0&0\\0&1\end{array}\right]$

$A_1=LU=(col_1\ of\ L)(row_1\ of\ U)+\left[\begin{array}{cc}0&O\\O&A_2\end{array}\right]\\ =(col_1\ of\ L)(row_1\ of\ U) + (col_2\ of\ L)(row_2\ of\ U) + \left[\begin{array}{ccc}0&0&O\\0&0&O\\O&O&A_3\end{array}\right]$

在消元过程中，第一行不需要操作，所以 $L$ 的第一行为 $1, 0 . . .$ ，第一列为为了消去第一列元素所乘的第一行系数， $U$ 的第一行为 $A$ 的第一行，因此 $col_1\ of\ L)(row_1\ of\ U)$ 包含了第一行第一列的所有信息，剩下的 $A_2$ 为原矩阵用第一行消元后剩余的信息。同理继续分解 $A_2$ ， $L$ 为下三角阵，所以 $col_2\ of\ L)(row_2\ of\ U)$ 不会在 $col_1\ of\ L)(row_1\ of\ U)$ 的基础上再给第一行的结果增加信息，且 $col_2\ of\ L$ 是在 $A$ 完成第一列消元后的矩阵上继续消元得到（即在基础上为了消去第二列元素所乘的第二行系数），因为后续不会再对第二行操作，所以 $U$ 的第二行即为此时消元第一列后的 $A$ 的第二行，也是 $A_2$ 第一行，所以 $col_1\ of\ L)(row_1\ of\ U)+(col_2\ of\ L)(row_2\ of\ U)$ 包含了原矩阵第一二行和第一二列所有信息，其中 $col_2\ of\ L)(row_2\ of\ U)$ 包含 $A_2$ 第一行第一列信息， $A_3$ 包含剩余信息。

~~写了那么多其实这部分内容并不重要，在这门课不会再出现了~~

Lecture 3 Orthonormal Columns in Q Give $Q^TQ=I$

当 $Q$ 是方阵时， $QQ^T=I$ 也成立，因为对方阵来说，左逆等于右逆

$Qx)^TQx=||Qx||^2=x^TQ^TQx=x^Tx=||x||^2,||Qx||=||x||$

$Q$ 不改变向量的长度

例如对二维平面有 $Q=\left[\begin{array}{cc}\cos{\theta}&-\sin{\theta}\\\sin{\theta}&\cos{\theta}\end{array}\right],Q\left[\begin{array}{c}1\\0\end{array}\right]=\left[\begin{array}{c}\cos{\theta}\\\sin{\theta}\end{array}\right],Q\left[\begin{array}{c}0\\1\end{array}\right]=\left[\begin{array}{c}-\sin{\theta}\\\cos{\theta}\end{array}\right]$

HouseHolder reflection

$Q$ (rotation matrix)将坐标轴旋转了 $\theta$ ，等于将整个平面的向量旋转了 $\theta$

$Q=\left[\begin{array}{cc}\cos{\theta}&\sin{\theta}\\\sin{\theta}&-\cos{\theta}\end{array}\right],Q\left[\begin{array}{c}1\\0\end{array}\right]=\left[\begin{array}{c}\cos{\theta}\\\sin{\theta}\end{array}\right],Q\left[\begin{array}{c}0\\1\end{array}\right]=\left[\begin{array}{c}\sin{\theta}\\-\cos{\theta}\end{array}\right]$

$Q$ (reflect matrix，反射矩阵)将向量关于直线 $y=\cos{\frac{\theta}{2}}x$ 做对称

高阶的反射矩阵可以由HouseHolder(豪斯霍尔德) reflection算法获得，n阶向量 $u^Tu=1,H=I-2uu^T$ 。 $H$ 是对称正交矩阵

$H^TH=H^2=I-4uu^T+4uu^Tuu^T=I$

Hadamard matrices

$H_2=\frac{1}{\sqrt{2}}\left[\begin{array}{cc}1&1\\1&-1\end{array}\right],H_4=\frac{1}{\sqrt{4}}\left[\begin{array}{cc}H_2&H_2\\H_2&-H_2\end{array}\right],H_{2^{n+1}}=\frac{1}{\sqrt{2^{n+1}}}\left[\begin{array}{cc}H_{2^n}&H_{2^n}\\H_{2^n}&-H_{2^n}\end{array}\right]$

$H$ 是正交矩阵，由 $1, - 1$ 构成。对 $H_n$ ， $n$ 是4的整数倍时仍为Hadamard matrix，即由 $1, - 1$ 构成的正交矩阵，为2的次幂时如上构造，否则有另外的构造方法。在傅里叶变换、编码、信号有重要作用。

正交矩阵的特征向量矩阵

置换矩阵（permutation matrix）是正交矩阵，且特征向量相互正交，n阶置换矩阵的特征向量矩阵是n阶傅里叶矩阵，例如

$Q_4=\left[\begin{array}{cccc}&1&&\\&&1&\\&&&1\\1&&&\end{array}\right]$ 的特征向量矩阵是4阶傅里叶矩阵 $F_4=\left[\begin{array}{cccc}1&1&1&1\\1&i&i^2&i^3\\1&i^2&i^4&i^6\\1&i^3&i^6&i^9\end{array}\right]$

Lecture 4 Eigenvalues and Eigenvectors

假设 $A_{n*n}$ 有 $n$ 个线性无关的特征向量 $x$ ，任意向量 $v$ 可以写成 $v=\sum_{i=1}^{n}{c_ix_i},v_k=A^kv=\sum_{i=1}^{n}{c_i\lambda_i^kx_i}$

$\frac{\mathrm{d}{v}}{\mathrm{d}{t}}=Av$ 的解为 $v=\sum_{i=1}^{n}{C_ic_i\mathrm{e}^{\lambda_it}x_i},C$ 为需要初始值确定的常数。

相似矩阵有相同特征值

$A_{n*n},B_{n*n}$ 均可逆， $A B$ 与 $B A$ 有相同特征值

取 $M=B,BA=M(AB)M^{-1}$

反对称矩阵

反对称矩阵没有实特征值
$A=-A^H\\ Ax=\lambda x\\ x^HAx=\lambda x^Hx\\ \overline{A}\overline{x}=\overline{\lambda}\overline{x}\\ x^HA^H=\overline{\lambda}x^H\\ -x^HA^Hx=-\overline{\lambda}x^Hx\\ 又A=-A^H\\ \lambda x^Hx=-\overline{\lambda}x^Hx\\ 不考虑零向量，\lambda=-\overline{\lambda}\\ 令\lambda=a+bi\\ a+bi=-a+bi\\ a=0\\ 所以\lambda必定为虚数\\$
例如 $A=\left[\begin{array}{cc}0&-1\\1&0\end{array}\right]$ ，作用在二维实向量上， $A\left[\begin{array}{c}1\\0\end{array}\right]=\left[\begin{array}{c}0\\1\end{array}\right],A\left[\begin{array}{c}0\\1\end{array}\right]=\left[\begin{array}{c}-1\\0\end{array}\right]$ ，等于将向量逆时针旋转90度，没有任何实 $\lambda$ 能满足 $A x$ 与 $\lambda x$ 同方向，因此特征值和特征向量都是复数。

Lecture 5 Positive Definite and Semidefinite Matrices

Lecture 6 Singular Value Decomposition(SVD)

SVD

$A=U\Sigma V^T,AV=U\Sigma$

实际中为了避免特征向量符号不对（例如对 $\left[\begin{array}{ccc}1&&\\&1&\\&&5\end{array}\right]$ ,特征值 $1$ 的特征向量为 $\left[\begin{array}{c}x\\y\\0\end{array}\right]$ ，需要选择），先做 $A^TA$ 求出 $V$ 和 $\Sigma$ ，再通过 $Av=\sigma u,u=\frac{Av}{\sigma}$ 求 $U$

为了证明这样的 $U$ 是正确的，需要证明 $u$ 正交且为 $AA^T$ 的特征向量

（实际上并不需要证明 $u$ 正交，因为 $v$ 是在这个前提下求出的，所以逆回来验算必定成立，用 $A v$ 求 $u$ 是为了确定 $u$ 的符号，否则 $- u$ 同样可以从 $AA^T$ 求出但是不满足 $Av=\sigma u$ 的条件，并且在假设了 $A=U\Sigma V^T$ 这个条件后，做 $AA^T,u$ 是特征向量显然成立，而 $v$ 正是在这个条件下求出的，所以并不需要证明，教授此处为了说明确定 $u$ 的符号循环论证了）

$u_1^Tu_2=(\frac{Av_1}{\sigma_1})^T\frac{Av_2}{\sigma_2}=\frac{v_1^TA^TAv_2}{\sigma_1\sigma_2}=\frac{\sigma_2^2v_1^Tv_2}{\sigma_1\sigma_2}=0$ ,也说明正交向量 $v$ 可以从行空间选择，经过 $A$ 变换后，得到列空间中的正交向量。

正交矩阵对向量变换不改变向量的模长，奇异值分解说明线性变换 $A$ ，作用在向量 $x$ 上，以二维为例，等于将 $x$ 的两个分量 $0\ 1]^T,[1\ 0]^T$ 做旋转 $V^T$ ，再用 $\Sigma$ 拉长各个分量，再做一个通常来说不同的旋转 $U$ ，即将单位圆拉伸成旋转的椭圆，且椭圆的长短轴就是 $\sigma$ ，规定 $\sigma_1≥\sigma_2≥\cdots≥\sigma_r>0$ ，因此 $\sigma_1$ 作用在 $x$ 的第一个分量上，为长轴。

假设 $A$ 是方阵，奇异值之积也是 $A$ 的行列式， $|A|=|U\Sigma V^T|=|U||\Sigma||V^T|=|\Sigma|=\Pi{\sigma}$ ， $A$ 如果满秩则 $\Sigma$ 对角线上没有0，不满秩则奇异值填不满整条对角线，将零视为奇异值相乘， $∣ A ∣ = 0$ ，符合。

完整的SVD中 $U_{m*m},V_{n*n}$ ，下标大于 $r$ 的向量从 $N(A^T),N(A)$ 取，但因为这部分在计算中会全部等于0，没有信息量，所以SVD的矩阵中可以只取下标小于等于 $r$ 的部分。

Polar Decomposition

任意矩阵 $A = S Q, S$ 是对称矩阵， $Q$ 是各列正交的矩阵（不是方阵）

$A_{m*n}=U_{m*r}\Sigma_{r*r}V_{n*r}^T=U\Sigma U^TUV^T=(U\Sigma U^T)(UV^T)=SQ$

$UV^T)^T(UV^T)=VU^TUV^T=I$ 所以 $UV^T$ 是 $m * n$ 正交阵。

Lecture 7 Eckart-Young:The Closest Rank k Matrix to A

Principal Component Analysis(主成分分析 PCA)

由SVD， $A=U\Sigma V^T=\sum_{i=1}^{r}\sigma_iu_iv_i^T$

$A$ 可以分解为 $r$ 个秩1矩阵的和，且 $\sigma$ 递减，因此构成 $A$ 最主要的部分为 $\sigma_1u_1v_1^T,\sigma_2u_2v_2^T,\cdots$

最近似于 $A$ 的秩 $k$ 矩阵为 $A_k=\sum_{i=1}^{k}\sigma_iu_uv_i^T$

范数(norm)

向量 $v$ 的L2范数 $l^2=||v||_2=\sqrt{\sum_{i=1}^{n}{v_i^2}}$ ,L1范数 $l^1=||v||_1=\sum_{i=1}^{n}{|v_i|}$ ,L无限范数(infinity norm) $l^{\infty}=||v||_{\infty}=\max_{i=1,\cdots,n}{|v_i|}$

最小化L1范数时优秀的向量的稀疏向量

常数 $c, ∣ ∣ c v ∣ ∣ = ∣ c ∣ ∣ ∣ v ∣ ∣$

$∣ ∣ v + w ∣ ∣ \leq ∣ ∣ v ∣ ∣ + ∣ ∣ w ∣ ∣$

$∣ ∣ A ∣ ∣$ 称为 $A$ 的范数(the norm of $A$ )，是矩阵尺度（大小）的一种测量

$||A||_2=\sigma_1$

Frobenius范数 $||A||_F=\sqrt{\sum_{i=1,\cdots,m\\j=1,\cdots,n}{a_{ij}^2}}$

Nuclear范数 $||A||_{Nuclear}=\sum_{i=1}^{r}{\sigma_i}$

正交矩阵 $Q, ∣ ∣ Q A ∣ ∣ = ∣ ∣ A ∣ ∣, ∣ ∣ Q v ∣ ∣ = ∣ ∣ v ∣ ∣$ （用L2范数看，就是对 $v$ 旋转）

$A$ 左乘或右乘正交阵不改变范数，原因是所有范数都与奇异值有关，左乘或右乘正交阵之后，仍然满足SVD分解的形式，可以看作另一个矩阵的SVD，因此奇异值不变，范数不变。

$QA=(QU)\Sigma V^T,QU$ 仍然是正交矩阵，正交矩阵的积是正交矩阵， $QU)^TQU=U^TQ^TQU=I$

Eckart-Young Theorem

如果 $B$ 是秩 $k$ 矩阵，那么 $A, B$ 的距离 $A-B||≥||A-A_k||$

对3种范数，定理都成立

PCA

对一组数据点构成的矩阵，先对每一项数据均值化（例如身高加和为0），再求协方差矩阵 $\frac{AA^T}{N-1}$ ，求出近似直线，直线的斜率就是 $\sigma_1$ （？教授没说清楚）

跟最小二乘不同，这里误差是点到直线的垂直距离，最小二乘是竖直距离

（教授这部分说得比较模糊，似乎留到练习课了）

Lecture 8 Norms of Vectors and Matrices

向量的范数

Lp范数 $l^p=||v||_p=(\sum_{i=1}^{n}{|v_i|^p})^{1/p}$

L0范数 $l^0=||v||_0=非零成分的个数,||cv||_0=||v||_0$

S范数 $||v||_S=\sqrt{v^TSv}$ ，S表示正定矩阵。在2维平面上，S范数≤1的图像是椭圆，L1范数是等长的菱形，L2范数是圆，L无限范数是正方形

对于最优化问题，在2D平面上 $min{||x||_1}$ 或 $min{||x||_2}$ 使得 $c_1x_1+c_2x_2=b$ ，将 $x$ 视为自变量和因变量，画出直线的图像，交轴于 $(a, 0), (0, b)$

几何角度的解为从原点开始扩张L1范数和L2范数的图像，表示当范数固定时，满足范数为当前值的点。当菱形\圆慢慢扩张，第一次接触直线时的点，就是符合条件的解 $x$ 。因此L2范数的解为从原点到直线的垂线交点（圆的切线），L1范数的解视直线斜率不同可能为 $(a, 0)$ 或 $(0, b)$ 或菱形的某一边。~~扩张到高维也适用可是并不能画出高维图像呢~~

矩阵的范数

Spetral Norm（谱范数，L2范数）

$||A||_2=\sigma_1$

矩阵范数由向量范数得出， $||A||_2=\max_{for\ all\ x}{\frac{||Ax||_2}{||x||_2}}$ ，可以理解为将 $x||_2$ 放大的一个系数

上述最优化问题中，获取最优解时的 $x$ 是 $A$ 的右奇异向量 $v_1$ （课上没有证明），从几何角度看线性变换（见线性变换Ax的几何解释），秩 $r$ 的 $A$ 作用于向量 $x$ ，仅在 $\Sigma$ 矩阵对向量做拉伸，而 $\Sigma$ 中拉伸最大的方向为 $\sigma_1$ 对应的右奇异向量对应的方向，因此最优解时的 $x$ 为 $v_1$ ，最优解为 $\sigma_1$ （或者 $\frac{||Av_1||_2}{||v_1||_2}=||Av_1||_2=||\sigma_1 u_1||_2=|\sigma_1|||u_1||_2=\sigma_1$ ）

Frobenius Norm

$||A||_F=\sqrt{\sum_{i=1,\cdots,m\\j=1,\cdots,n}{a_{ij}^2}}=\sqrt{\sum_{i=1}^{r}{\sigma_i^2}}$

矩阵的迹满足交换律

$tr(A_{m*n}B_{n*m})=\sum(AB)_{ii}=\sum_{i=1}^{m}{(\sum_{j=1}^{n}{a_{ij}b_{ji}})}=\sum_{j=1}^{n}{(\sum_{i=1}^{m}{b_{ji}a_{ij}})}=\sum{(BA)_{jj}}=tr(BA)$

$||A||_F=\sqrt{\sum_{i=1,\cdots,m\\j=1,\cdots,n}{a_{ij}^2}}=\sqrt{tr(A^TA)}=\sqrt{tr(V\Sigma^2V^T)}$

注意迹为特征值之和，上式为 $A^TA$ 的特征值分解， $\Sigma^2$ 即特征值矩阵

$||A||_F=\sqrt{\sum_{i=1}^{r}\sigma_i^2}$

Nuclear Norm(trace norm)

$||A||_N=\sum_{i=1}^{r}{\sigma_i}$

Lecture 9 Four Ways to Solve Least Squares Problems

伪逆(pseudo inverse)

$A_{m*n}$ 将 $C(A^T)$ 的 $x$ 映射到 $C (A)$ 的 $A x$ ，伪逆将其逆映射回来， $A^+Ax=x$

$A$ 将零空间映射到零点， $A^+$ 将左零空间映射到零点，满秩矩阵 $A^+=A^{-1}$ ，画4空间图很好理解，非满秩矩阵将零点扩张成空间即可。

$A=U\Sigma V^T$ ,如果 $A$ 可逆， $A^{-1}=V\Sigma^{-1}U^T$ , $A$ 不可逆， $A^+=V\Sigma^+U^T$ （定义并不要求列满秩）

伪逆是使得 $AA^+,A^+A$ 最接近 $I$ 的矩阵，注意左右伪逆不相等，但公式都可以由SVD类推求得

$\Sigma^+$ 是 $\Sigma$ 非零项取倒数，其他全0

最小二乘法

对一组数据点，不在同一条直线上，即 $A x = b$ 无解，拟合一条最优的直线，使得误差最小（线性回归），误差定义为 $Ax-b||_2^2$

损失函数(loss function) $Ax-b||_2^2=(Ax-b)^T(Ax-b)=x^TA^TAx-2b^TAx+b^Tb$

令上式求导为0，得 $A^TAx=A^Tb$ ，也就是正规方程（~~可是教授你没教过矩阵求导啊~~）

从几何角度，就是求构成列空间中最接近 $b$ 的向量的系数 $x$ ，这样使得误差最小，正规方程也在求投影中出现过，因此求导的结果就是求投影的系数，为表示是近似解而不是原方程的解，解写做 $\hat{x}$

$A$ 如果列满秩，则 $\hat{x}=(A^TA)^{-1}A^Tb$ ，同时左伪逆 $A_{left}^+=(A^TA)^{-1}A^T,\hat{x}=A^+b$

$A_{left}^+A=V_{n*n}\Sigma_{n*m}^+U_{m*m}^TU\Sigma_{m*n}V^T=VI_{n*n}V^T=I$

最低0.47元/天解锁文章

寒-衣调

关注

10
点赞
踩
29

收藏

觉得还不错? 一键收藏
16
评论
MIT18.065 数据分析、信号处理和机器学习中的矩阵方法-学习笔记

文章目录MIT18.065 数据分析、信号处理和机器学习中的矩阵方法Lecture 1 The Column Space of A Contains All Vectors AxA=CRA=CMRLecture 2 Multiplying and Factoring MatricesLU分解的解释Lecture 3 Orthonormal Columns in Q Give QTQ=IQ^TQ=IQTQ=IHouseHolder reflectionHadamard matrices正交矩阵的特征向量矩阵L
复制链接

扫一扫