线性代数学习笔记5-3：标准正交基、正交矩阵、施密特正交化、QR分解

正交矩阵

一组标准正交向量Orthonormal vectors满足：
$\mathbf{q}_{i}^{T} \mathbf{q}_{j}=\left\{\begin{array}{ll} 0 & i \neq j \\ 1 & i=j \end{array}\right.$
“标准”是指各个向量长度都为1，“正交”指任意两个向量正交；标准正交基础让问题变得简单可控

将一组标准正交向量作为列向量，得到的矩阵为 $\mathbf Q$
根据上面的性质，这个矩阵一定满足 $\mathbf Q^T\mathbf Q=\begin{bmatrix}q_1^T\\q_2^T\\q_3^T\end{bmatrix}\begin{bmatrix}q_1&q_2&q_3\end{bmatrix}=\mathbf I$ （但是 $\mathbf Q^T\mathbf Q\neq \mathbf I$ ，除非 $\mathbf Q$ 为方阵）

ps. $\mathbf Q$ 不一定为方阵，例如三维空间中两个正交的基向量，也可以构成一个 $\mathbf Q$ ；
但是，如果 $\mathbf Q$ 为方阵，则其列向量就是 $\mathbf R^n$ 空间的一组标准正交基（ $n$ 个长度为1的 $\times 1$ 基向量）

当 $\mathbf Q$ 为方阵时，这样以一组标准正交基作为列向量的矩阵称为正交矩阵 Orthogonal matrix
正交矩阵满足 $\mathbf Q^T\mathbf Q=\mathbf Q\mathbf Q^T=\mathbf I$ ， $\mathbf Q^{-1}=\mathbf Q^T$

正交矩阵特性

正交矩阵 $\mathbf Q$ 几何上对应单纯的旋转
进而，任意正交矩阵的乘积 $\mathbf Q_1\mathbf Q_2$ 仍为正交矩阵
正交矩阵与向量相乘，不改变其长度
$\|\mathbf Q\mathbf x\|^2=(\mathbf Q\mathbf x)^T\mathbf Q\mathbf x=\mathbf x^T\mathbf Q^T\mathbf Q\mathbf x=\|\mathbf x\|^2$
或者说， $\mathbf Q$ 对应的线性变换是单纯的旋转，不会拉伸基向量、不改变基向量之间的正交关系，从而该变换不会改变向量长度
正交矩阵 $\mathbf Q$ 特征值满足 $|\lambda|=1$ （可能为复数）
证明：由 $\mathbf Q\mathbf x=\lambda\mathbf x$ 得到 $\|\mathbf Q\mathbf x\|^2=\lambda^2\|\mathbf x\|^2$ ；根据上面，又有 $\|\mathbf Q\mathbf x\|^2=\|\mathbf x\|^2$
则 $\lambda^2=1$ ， $|\lambda|=1$

正交矩阵举例

置换矩阵 $\boldsymbol{Q}=\left[\begin{array}{lll} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{array}\right]$
$\boldsymbol{Q}=\left[\begin{array}{rr} \cos \theta & -\sin \theta \\ \sin \theta & \cos \theta \end{array}\right]$
$\boldsymbol{Q}=\frac{1}{\sqrt 2}\left[\begin{array}{rr} 1&1\\ 1&-1 \end{array}\right]$ ，其中 $\frac{1}{\sqrt 2}$ 是为了保证每个列向量长度都是 $1$
阿达玛Hadamard矩阵 $\boldsymbol{Q}=\frac{1}{2}\left[\begin{array}{rrrr} 1 & 1 & 1 & 1 \\ 1 & -1 & 1 & -1 \\ 1 & 1 & -1 & -1 \\ 1 & -1 & -1 & 1 \end{array}\right]$
三维空间中两个正交向量组成的矩阵，可以“补出”第三个基向量，得到正交矩阵
$\boldsymbol{Q}=\frac{1}{2}\left[\begin{array}{rr} 1&-2\\ 2&-1\\ 2&2 \end{array}\right]$ 变为 $\boldsymbol{Q}=\frac{1}{2}\left[\begin{array}{rr} 1&-2&2\\ 2&-1&-2\\ 2&2&1 \end{array}\right]$

标准正交基/正交矩阵的优势

之前说过，如果想要将一个向量 $\boldsymbol b$ 投影到矩阵 $\mathbf A$ 的列空间内，做法是使用投影矩阵 $\mathbf P$ ：
将向量 $\boldsymbol b$ 投影到平面上得到的投影为 $\boldsymbol p=\mathbf P\boldsymbol b$ ，其中投影矩阵 $\mathbf P=\mathbf A(\mathbf A^T\mathbf A )^{-1}\mathbf A^T$

对应这里，如果要将向量投影到正交矩阵 $\mathbf Q$ 的列空间内，对应的投影矩阵 $\mathbf P=\mathbf Q(\mathbf Q^T\mathbf Q )^{-1}\mathbf Q^T=\mathbf Q\mathbf Q^T=\mathbf I$
这表明：正交矩阵这个方阵，其列空间就是整个 $\mathbf R^n$ 空间（投影后仍在原点）

之前说过， $\mathbf A \boldsymbol x=\boldsymbol b$ 无解时，转而求解 $\mathbf A^T\mathbf A \hat{\boldsymbol x}=\mathbf A^T\boldsymbol b$ ，该方程的解 $\tilde{\boldsymbol x}$ 会是“最优解”

对于正交矩阵 $\mathbf Q$ （或者列向量都为标准正交向量的非方阵 $\mathbf Q$ ），直接得到 $\mathbf Q^T\mathbf Q \hat{\boldsymbol x}=\hat{\boldsymbol x}=\mathbf Q^T\boldsymbol b$

采用矩阵的QR分解（后面会介绍，即从列向量线性无关的矩阵 $\mathbf A$ 施密特正交化，得到正交矩阵 $\mathbf Q$ ）来帮助求解 $\mathbf A \boldsymbol x=\boldsymbol b$ 的问题，最大的优势是提高了数值的稳定性

线性无关向量组的标准正交化：施密特正交化Gram-Schmidt

已知一组线性无关的向量，希望用它们导出一组标准正交向量，
或者说，将满秩的矩阵，变为一个正交矩阵，
方法是施密特正交化Gram-Schmidt

例如，对于任意 $\mathbf R^n$ 空间中的三个线性无关向量 $\boldsymbol a$ 、 $\boldsymbol b$ 和 $\boldsymbol c$ ，对应构造的正交的向量为 $\boldsymbol A$ 、 $\boldsymbol B$ 和 $\boldsymbol C$

对于 $\boldsymbol a$ ，我们就采用其本身，得到正交化的向量 $\boldsymbol A$
对于 $\boldsymbol b$ ，我们只需要对 $\boldsymbol A$ 做投影 $\boldsymbol p$ ，然后取误差向量 $\boldsymbol e=\boldsymbol b-\boldsymbol p$ 作为正交化的向量 $\boldsymbol B$
（回忆之前的内容，求向量在另一向量上的投影，为 $\boldsymbol p=\frac{\boldsymbol {a}^{T} \boldsymbol {b}}{\boldsymbol {a}^{T} \boldsymbol {a}}\boldsymbol a$ ）
因此， $\boldsymbol B=\boldsymbol b-\frac{\boldsymbol {A}^{T} \boldsymbol {b}}{\boldsymbol {A}^{T} \boldsymbol {A}}\boldsymbol A$
同理，对于第三个向量 $\boldsymbol c$ ，也是“修剪掉”其“超出”已正交化的两个向量的那部分多余分量，得到
$\boldsymbol C=\boldsymbol c-\frac{\boldsymbol {A}^{T} \boldsymbol {c}}{\boldsymbol {A}^{T} \boldsymbol {A}}\boldsymbol A-\frac{\boldsymbol {B}^{T} \boldsymbol {c}}{\boldsymbol {B}^{T} \boldsymbol {B}}\boldsymbol B$
最后，所有正交化的向量，除以其长度，进行“标准化”，得到一组标准正交向量
$\boldsymbol q_1=\frac{\boldsymbol A}{\|\boldsymbol A\|}$ , $\boldsymbol q_2=\frac{\boldsymbol B}{\|\boldsymbol B\|}$ , $\boldsymbol q_3=\frac{\boldsymbol C}{\|\boldsymbol C\|}$

QR分解

在消元部分，学习了矩阵的LU分解得到 $\mathbf{A=LU}$

列向量线性无关的矩阵 $\mathbf A$ 的施密特正交化，也可表示为 $\mathbf{A=QR}$ 形式，并且 $\mathbf R$ 必为上三角阵
另外注意：

正交化后列空间不变： $C(\mathbf A)=C(\mathbf Q)$ （正交化只不过是调整了我们使用的“基向量”，使其正交）
矩阵 $\mathbf R$ 必然为上三角阵：

原理：
若有 $\mathbf{A=QR}$ ，则 $\mathbf R=\mathbf Q^{-1}\mathbf A=\mathbf Q^{T}\mathbf A$ （因为 $\mathbf Q$ 为正交矩阵），由此我们得到了矩阵 $\mathbf R$ 的元素为 $\boldsymbol a_1^T\boldsymbol q_2$ 等，如图所示

其中，由于 $\boldsymbol a_1$ 和 $\boldsymbol q_2$ 必然正交（ $\boldsymbol q_2$ 来自于 $\boldsymbol a_2$ 的正交化），因此元素 $\boldsymbol a_1^T\boldsymbol q_2=0$

ps. 上面的矩阵 $\mathbf R$ 中的元素本应为 $\boldsymbol q_1^T\boldsymbol a_1$ 等，但由于这是向量点积，结果是一个数字，因此下面写作 $\boldsymbol a_1^T\boldsymbol q_2$ 也可以

理解：

由于矩阵右乘对应于列的线性组合， $\mathbf{A=QR}$ 可以视为：矩阵 $\mathbf R$ 对于正交矩阵 $\mathbf Q$ 的列向量做操作
且 $\mathbf Q$ 的列向量为一组标准正交基，用 $\mathbf R$ 中的元素对标准正交基加权组合，得到了另一组线性无关的向量，即 $\mathbf A$ 的列向量
由此也能进一步理解为何 $\mathbf R$ 为上三角矩阵：这样保证了一组标准正交基经过线性组合后， $\mathbf A$ 中不会出现线性相关的向量（每个向量仍然都贡献 / 张成一个新的维度）