[笔记][总结] MIT线性代数 Gilbert Strang 正交矩阵

最新推荐文章于 2022-08-15 09:51:22 发布

TZR986981442

最新推荐文章于 2022-08-15 09:51:22 发布

阅读量449

点赞数

分类专栏： MIT线性代数 Gilbert Strang 文章标签：线性代数

本文链接：https://blog.csdn.net/TZR986981442/article/details/104727420

版权

MIT线性代数 Gilbert Strang 专栏收录该内容

10 篇文章 5 订阅

订阅专栏

作者水平有限，欢迎大家提出文中错误

正交性与正交矩阵

正交性
标准正交矩阵
投影矩阵
Gram-Schmidt正交化
- $A = Q R$

正交性

$0\perp any \ vector$
如果说子空间 $S$ 与子空间 $T$ 垂直， $\forall v\in S,\forall w\in T,v\perp w$
对于矩阵 $A$ ， $C(A^T)\perp N(A)$ ， $C(A)\perp N(A^T)$

标准正交矩阵

$Q\ is\ a\ orthonormal\ matrix,\ only\ if$
$q_i^Tq_j= \left\{ \begin{aligned} 0,\ if\ i\not=j\\ 1,\ if\ i=j \end{aligned} \right.$
$Q^TQ=I$
对于一般的正交矩阵上式得出了一个对角阵，对角元是各列向量长度平方

如果 $Q$ 是方阵
$Q^T=Q^{-1}$
即使 $Q_{m*n}$ 不是方阵
$Q^T_{n*m}Q_{m*n}=I_{n*n}$
同时不难得出 $Q$ 总是列满秩的。
比如4维的 $Adhemar\ matrix$ ，矩阵中只有-1和1，但并不是所有维度的矩阵都有这种形式
$\frac{1}{2} \left[ \begin{matrix} 1&1&1&1 \\ 1&-1&1&-1\\ 1&1&-1&-1 \\ 1&-1&-1&1\\ \end{matrix} \right]$

投影矩阵

一维情况

在这里插入图片描述
首先考虑向一维子空间的投影， $p$ 是 $b$ 投影后的像，

$b = p + e$ ， $b^Ta=p^Ta+e^Ta$ ，

由于 $e\perp a$ ，所以 $e^Ta=0$ ，所以有 $b^Ta=p^Ta$ ，

又因为 $a$ 与 $p$ 同向， $p^Ta=\left \| p\right \| \left \| a\right \|$ ，所以 $\frac {a^Tb}{a^Ta}=\frac{\left \| p\right \| }{ \left \| a\right \|}$ ，

所以矩阵 $\frac{aa^T}{ a^Ta}$ 是一个投影算子，也可以看出 $p$ 是子空间中距离 $b$ 最近的像

向多维情况拓展，假设投影矩阵 $P$ 可以将向量投影到 $A$ 的列空间 $C (A)$ 。

最小二乘法

在向多维情况拓展之前，首先说一下最小二乘法

考虑一个线性方程组 $Ax=b,b\notin C(A)$ ，此方程组一定是无解的，但是可以找到方程最近的一个解，通过把 $b$ 投影到 $C (A)$ 。

设此像为 $p$ ，方程组变为 $A\hat{x}=p$ ，

$A\hat x$ 是距离 $b$ 最近的 $C (A)$ 中的像，那么误差向量 $e=b-A\hat{x}$ 一定垂直于 $C (A)$ 。

所以有 $A^T(b-A\hat{x})=0$ 。（特别一提 $e\in N(A)$ ）

则 $A^TA\hat{x}=A^Tb$

此时如果 $A^TA$ 是奇异的（明显是方阵，而且是对称矩阵）,推导便走到了尽头。所以下面论证 $A^TA$ 的可逆性。

若 $A x = 0$ ，那么 $A^TAx=0$ ，则
$N(A)\subseteq N(A^TA)$
若 $A^TAx=0$ ，则 $x^TA^TAx=0$ ，则 $Ax)^TAx=0$ ，则 $A x = 0$ ，则
$N(A^TA)\subseteq N(A)$

综上所述， $N(A^TA)=N(A)$ ， $rank\ A^TA=rank\ A$ 。

换言之，只有当 $A$ 行满秩或列满秩的时候， $A^TA$ 才是可逆的。

回到投影矩阵

上一节已经知道只有 $A$ 行满秩或列满秩的时候， $A^TA)^{-1}$ 才存在，那么我们就假设 $A$ 毫无冗余地描述了其列空间，于是我们立马可得
$\hat{x}=(A^TA)^{-1}A^Tb$
$A\hat{x}=A(A^TA)^{-1}A^Tb$
$p=A(A^TA)^{-1}A^Tb$
至此，投影矩阵 $P$ 已经得出
$P=A(A^TA)^{-1}A^T$
可见此矩阵与一维情况有相似之处，当 $A$ 是一个向量的时候，矩阵会退化为其一维形式
如果 $A$ 是一个标准正交的矩阵，记作 $Q$ ，则
$P=QQ^T$

投影矩阵的若干性质

不难证明， $P$ 是对称矩阵
$P^n=P$ ，可以轻松证明，不再赘述
$\forall\ v\in C(A),Pv=v$
如果 $A$ 可逆， $P = I$

再述最小二乘法

假设有一些数据构成了向量 $b_{measurement}$ ，理想条件下， $b_{measurement}$ 在矩阵方程中是有解的，但是由于测量过程中噪声的存在， $b_{measurement}$ 偏离了真值，造成了 $Ax=b_{measurement}$ 无解，但是正如上文所说，可以将 $b_{measurement}$ 投影到 $C (A)$ 中，使得方程可解，即拟合。其实拟合的数据点足够多可以消除噪声的影响，得到现有数据对应的最可能解。

在 $\mathbb R^2$ 中讨论
假设解为 $y = a x + c$ ，
$\begin{bmatrix} x_1 & 1 \\ x_2 & 1\\ \vdots & \vdots\\ x_{n} & 1 \\ \end{bmatrix} \left[ \begin{matrix} a\\ c\\ \end{matrix} \right]= \left[ \begin{matrix} y_1 \\ \vdots \\ y_2 \\ y_n \\ \end{matrix} \right]$
此为 $Ax=b_{measurement}$

方程 $A^TA\hat x=A^Tb$ 的解为
$\left[ \begin{matrix} \hat a\\ \hat c\\ \end{matrix} \right]$
$A^TA= \left[ \begin{matrix} \sum\limits_{i=1}^nx_i^2 & \sum\limits_{i=1}^nx_i\\ \sum\limits_{i=1}^nx_i & n\\ \end{matrix} \right]$
$A^Tb= \left[ \begin{matrix} \sum\limits_{i=1}^nx_iy_i\\ \sum\limits_{i=1}^ny_i\\ \end{matrix} \right]$
解为：
$\hat a=\frac{n\sum\limits_{i=1}^nx_iy_i-\sum\limits_{i=1}^nx_i\sum\limits_{i=1}^ny_i}{n\sum\limits_{i=1}^nx_i^2-(\sum\limits_{i=1}^nx_i)^2}, \hat c=\bar y-\hat a\bar x$
以上即为高中数学的线性回归方程

而上述方法可以达到什么最优呢？根据投影的几何意义，投影是为了 $\left\|b-p\right\|$ 最小
在二维的最小二乘法中， ${\left\|e\right\|}^2=\sum\limits^n_{i=1} \left[ y_i-(\hat a \bar x+\hat c) \right]^2$
在这里插入图片描述
$\nabla e=0$ 是我们需要求的状态，则
$\partial_{\hat a}e=0,\ \partial_{\hat c}e=0$
这个微分方程的解和上式一样

如果 $A$ 是一个标准正交的矩阵，记作 $Q$ ，则方程 $A^TA\hat x=A^Tb$ 化为
$\hat x=Q^Tb$
其意义是在标准正交基 $[q_1\dots q_n]$ 下，向量 $b$ 的第 $i$ 个坐标为 $\hat x=q_i^Tb$

Gram-Schmidt正交化

通过Gram-Schmidt正交化，可以根据 $A$ 找到一组 $C (A)$ 的标准正交基

看一个 $\mathbb R^3$ 的例子
在这里插入图片描述
$\left[ \begin{matrix} q_1 \dots q_n \end{matrix} \right]$
首先
$q_1=\frac 1{\left\|a_1\right\|}a_1$
对于 $q_2$
$a_2$ 在 $a_1$ 上的投影向量等于 $\frac{a_1a_1^T}{a_1^Ta_1}a_2$ ,则
$e_1=(I-\frac{q_1q_1^T}{q_1^Tq_1})a_2$
或者
$e_1=a_2-(q_1^Ta_2)q_1$
而 $e_1\parallel q_2$ ,所以
$q_2=\frac 1{\left\|e_1\right\|}e_1$
对于 $q_3$ ，需要先构造矩阵
$\left[ \begin{matrix} q_1&q_2 \end{matrix} \right]$
$a_3$ 在 $C (B)$ 上的投影为 $B(B^TB)^{-1}B^Ta_3$ ，则
$e_2=(I-B(B^TB)^{-1}B^T)a_3$
或者
$e_2=a_3-(q_1q_1^T+q_2q_2^T)a_3$
$e_2=a_3-(q_1^Ta_3)q_1+(q_2^Ta_3)q_2$
$q_3=\frac1{\left\|e_2\right\|}e_2$
推广到任意维空间，第 $i$ 个向量的正交化
$e_{i-1}=a_i-\sum\limits_{j=1}^{i-1}(q_j^Ta_i)q_j,\ q_i=\frac1{\left\|e_{i-1}\right\|}e_{i-1}$
注意这里公式似乎和一些教材上的有所不同，是因为这些教材上没有在生成了正交基后立即对其标准化，导致 $B^TB\not=I$ ，而是一个对角阵。导致了每一项下系数不为1。

$A = Q R$

如果是消元法的矩阵形式是 $A = L U$
那么Gram-Schmidt正交化的矩阵形式就是 $A = Q R$
$\left[ \begin{matrix} a1&a_2&\cdots&a_m \end{matrix} \right]= \left[ \begin{matrix} q_1&q_2&\cdots &q_m \end{matrix} \right] \left[ \begin{matrix} a_1^Tq_1&a_2^Tq_1&\cdots&a_m^Tq_1\\ a_1^Tq_2&a_2^Tq_2&\cdots&a_m^Tq_2\\ \vdots&\vdots&\ddots&\vdots\\ a_1^Tq_m&a_2^Tq_m&\cdots&a_m^Tq_m\\ \end{matrix} \right]$
其中对角线以下的元素全为0， $R$ 是一个上三角矩阵
$\left[ \begin{matrix} a1&a_2&\cdots&a_m \end{matrix} \right]= \left[ \begin{matrix} q_1&q_2&\cdots &q_m \end{matrix} \right] \left[ \begin{matrix} a_1^Tq_1&a_2^Tq_1&\cdots&a_m^Tq_1\\ &a_2^Tq_2&\cdots&a_m^Tq_2\\ & &\ddots&\vdots\\ & & &a_m^Tq_m\\ \end{matrix} \right]$

TZR986981442

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[笔记][总结] MIT线性代数 Gilbert Strang 正交矩阵

正交性与正交矩阵投影矩阵一维情况最小二乘法回到投影矩阵投影矩阵的若干性质再述最小二乘法Gram-Schmidt正交化投影矩阵一维情况首先考虑向一维子空间的投影，ppp是bbb投影后的像，b=p+eb=p+eb=p+e，bTa=pTa+eTab^Ta=p^Ta+e^TabTa=pTa+eTa，由于e⊥ae\perp ae⊥a，所以eTa=0e^Ta=0eTa=0，所以有bTa=pTab^...
复制链接

扫一扫