漫步线性代数十七——正交基和格拉姆-施密特正交化(上)

对于一个正交基，每个向量和其他所有向量垂直，坐标轴就是互相正交的。我们还可以进一步改善：每个向量除以它的长度得到单位向量，这样的话正交基变成了标准正交基：

16、如果

q T i q j = {01 i \neq j, 给 出 正 交 性 i = j, 给 出 归 一 性

$q_i^Tq_j= \begin{cases} 0&i\neq j,\text{给出正交性}\\ 1&i=j,\text{给出归一性} \end{cases}$

那么 $q_1,\ldots,q_n$ 就是是标准正交基，由标准正交列组成的矩阵叫做 $Q$ 。

最重要的例子是标准基，对于 $x-y$ 平面，最熟悉的 $e_1=(1,0)，e_2=(0,1)$ 水平和竖直方向都是垂直的， $Q$ 是 $2\times 2$ 的单位矩阵。在 $n$ 为空间里标准基 $e_1,\ldots,e_n$ 由 $Q=I$ 的列组成：

e 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 100 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, e 2 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 010 ⋮ 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥, \dots, e n = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 000 ⋮ 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ .

$e_1=\begin{bmatrix} 1\\0\\0\\\vdots\\0 \end{bmatrix}, e_2=\begin{bmatrix} 0\\1\\0\\\vdots\\0 \end{bmatrix} ,\cdots, e_n=\begin{bmatrix} 0\\0\\0\\\vdots\\1 \end{bmatrix}.$

这不是唯一的正交基！我们在不改变直角的情况下悬着这些轴，依然是正交基，旋转得到的矩阵我们用 $Q$ 来表示。

如果我们有一个 $R^n$ 的子空间，标准向量 $e_i$ 可能不在这个子空间，但是子空间肯定有一个正交基，我们可以通过一种简单的方法来构造出来，本质上就是将这些倾斜的轴变成正交的，这就是所谓的格拉姆-施密特正交化(Gram-Schmidt othogonalization)。

接下来，说一些本篇文章的是三个主题：

正交矩阵 $Q$ 的定义和性质。

$Qx=b$ 的解，其中 $Q$ 可以是 $n\times n$ 方阵，也可以是长方形矩阵(最小二乘)。
格拉姆-施密特方法的具体步骤以及新的矩阵分解 $A=QR$ 。

正交矩阵

17、如果 $Q$ (正方行或长方形)的列是正交的，那么 $Q^TQ=I$ ：

$⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ - - - q T 1 q T 2 ⋮ q T n - - - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎡ ⎣ ⎢ | q 1 | | q 2 | \dots | q n | ⎤ ⎦ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ 10 \cdot 0 01 \cdot 0 \cdot \cdot \cdot \cdot 00 \cdot 1 ⎤ ⎦ ⎥ ⎥ ⎥ (1)$ $\begin{equation} \begin{bmatrix} -&q_1^T&-\\ -&q_2^T&-\\ &\vdots&\\ -&q_n^T&- \end{bmatrix} \begin{bmatrix} |&|&&|\\ q_1&q_2&\cdots&q_n\\ |&|&&| \end{bmatrix} =\begin{bmatrix} 1&0&\cdot&0\\ 0&1&\cdot&0\\ \cdot&\cdot&\cdot&\cdot\\ 0&0&\cdot&1 \end{bmatrix}\tag1 \end{equation}$

正交矩阵就是列是单位正交的方阵，它的转置等于它的逆，即 $Q^T=Q^{-1}$ 。

当 $Q^T$ 的 $i$ 行乘以 $Q$ 的 $j$ 列时，结果为零 $q_i^Tq_j=0$ ，而对角线上 $i=j$ ，得到 $q_i^Tq_i=1$ ，也就是长度为1的单位矩阵归一化。

注意即便 $Q$ 是长方形矩阵， $Q^TQ=I$ 依然成立，但是 $Q^T$ 仅仅是左逆。

例1：

$Q = [cos θ sin θ - sin θ cos θ], Q T = Q - 1 = [cos θ - sin θ sin θ cos θ]$ $Q=\begin{bmatrix} \cos\theta&-\sin\theta\\ \sin\theta&\cos\theta \end{bmatrix},\quad Q^T=Q^{-1}= \begin{bmatrix} \cos\theta&\sin\theta\\ -\sin\theta&\cos\theta \end{bmatrix}$

$Q$ 将每个向量旋转 $\theta$ 度，而 $Q^T$ 旋转 $-\theta$ 度，相当于有回到原点了。这些列明显都是正交的，因为 $\sin^2\theta+\cos^2\theta=1$ 。

例2：置换矩阵 $P$ 都是正交矩阵，它的列都是单位向量，而且正交。因为每一列在不同的位置有一个1，它的转置也等于它的逆：

$P = ⎡ ⎣ ⎢ 001100010 ⎤ ⎦ ⎥ 那么 P - 1 = P T = ⎡ ⎣ ⎢ 001100010 ⎤ ⎦ ⎥$ $P=\begin{bmatrix} 0&1&0\\0&0&1\\1&0&0 \end{bmatrix}\text{那么} \quad P^{-1}=P^T=\begin{bmatrix} 0&1&0\\0&0&1\\1&0&0 \end{bmatrix}$

反对角线 $P$ 上的元素 $P_{13}=P_{22}=P_{31}=I$ 将 $x-y-z$ 轴变成了 $z-y-x$ 轴——也就是右手系统变成了左手系统，所以如我们说每个正交矩阵 $Q$ 表示一个旋转的话就不是很准确，因为反射也能做到:

$P = [0110]$ $P=\begin{bmatrix} 0&1\\1&0 \end{bmatrix}$

将点 $(x,y)$ 反射成 $(y,x)$ ，它的镜像是 $45^{\circ}$ 斜线。从几何上来看，正交矩阵 $Q$ 是旋转矩阵和反射矩阵的乘积。

有一个性质是旋转矩阵和反射共有的，当然也就意味着每个正交矩阵也具有。但投影矩阵没有这个性质，因为它不正交或者说不可逆，投影会使向量的长度变小，而正交矩阵却保持长度不变，这个性质非常重要也非常具有代表性：

18、 $Q$ 乘以任何向量保持向量长度不变：

$∥ Q x ∥ = ∥ x ∥ (2)$ $\begin{equation} \Vert Qx\Vert=\Vert x\Vert\tag2 \end{equation}$

它也保持内积和夹角不变，因为 $(Qx)^T(Qy)=x^TQ^TQy=x^Ty$ 。对于长度而言，直接从 $Q^TQ=I$ 就能看出来：

$∥ Q x ∥ 2 = ∥ x ∥ 2 即 (Q x) T (Q x) = x T Q T Q x = x T x (3)$ $\begin{equation} \Vert Qx\Vert^2=\Vert x\Vert^2\text{即}\quad (Qx)^T(Qx)=x^TQ^TQx=x^Tx\tag3 \end{equation}$

当空间被旋转或反射时，所有的内积和长度都保持不变。

接下来我们利用性质 $Q^T=Q^{-1}$ 进行计算。如果已知一组基，那么任何向量都可以用基向量来表示，对于一组标准正交基来说这是非常简便的，之后我们会看到傅里叶级数背后实际就是这一想法，所以现在问题变成找基向量的系数：

$将 b 写成一个基向量的组合 b = x 1 q 1 + x 2 q 2 + \dots + x n q n$ $\text{将$b$写成一个基向量的组合}b=x_1q_1+x_2q_2+\cdots+x_nq_n$

在计算 $x_1$ 时有一个小技巧，方程两边同时乘以 $q_1^T$ ，那么左边就变成 $q_1^Tb$ ，右边除了第一项外其余项都消失了(因为 $q_1^Tq_j=0$ )，最后留下：

$q T 1 b = x 1 q T 1 q 1$ $q_1^Tb=x_1q_1^Tq_1$

因为 $q_1^Tq_1=1$ ，所以 $x_1=q_1^Tb$ ，同样的可以得出第二个系数 $x_2=q_2^Tb$ ，得出所有系数后代入 $b$ 的方程的：

$(q T 1 b) q 1 + (q T 2 b) q 2 + \dots + (q T n b) q n (4)$ $\begin{equation} (q_1^Tb)q_1+(q_2^Tb)q_2+\cdots+(q_n^Tb)q_n\tag4 \end{equation}$

接下来将标准正交基放到方阵 $Q$ 中，向量方程 $x_1q_1+\cdots+x_nq_n=b$ 等价于 $Qx=b$ ，( $Q$ 的列乘以 $x$ 中的元素)它的解是 $x=Q^{-1}b$ ，但是因为 $Q^{-1}=Q^T$ ——正交矩阵的性质——所有解也可以写成 $x=Q^Tb$ ：

$x = Q T b = ⎡ ⎣ ⎢ ⎢ - - - q T 1 ⋮ q T n - - - ⎤ ⎦ ⎥ ⎥ ⎡ ⎣ ⎢ b ⎤ ⎦ ⎥ = ⎡ ⎣ ⎢ ⎢ q T 1 b ⋮ q T n b ⎤ ⎦ ⎥ ⎥ (5)$ $\begin{equation} x=Q^Tb=\begin{bmatrix} -&q_1^T&-\\ -&\vdots&-\\ -&q_n^T&- \end{bmatrix} \begin{bmatrix} \\b\\ \\ \end{bmatrix} =\begin{bmatrix} q_1^Tb\\\vdots\\q_n^Tb \end{bmatrix}\tag5 \end{equation}$

$x$ 的元素就是内积 $q_i^T b$ ，也就是方程(4)。

矩阵形式也展示了在列向量不是标准正交时发生了什么，我们依然将 $b$ 表示为 $x_1a_1+\cdots+x_n a_n$ 的组合来求解 $Ax=b$ ，基向量表示成 $A$ ，为了求解，我们需要 $A^{-1}$ ，在标准正交时仅仅需要 $Q^T$ 。

注解1：前面我们将 $b$ 投影到直线上时出现了 $a^Tb/a^Ta$ ，而这里的 $a$ 就是 $q_1$ ，这是一维的，并且投影是 $(q_1^T)q_1$ ，所以我们可以重新解释公式(4)：每个向量 $b$ 是投影到一维直线上的总和。

因为这些投影是正交的，那么可以应用毕达哥拉斯定理，斜边的平方等于各项平方的和：

$∥ b ∥ 2 = (q T 1 b) 2 + (q T 2 b) 2 + \dots + (q T n b) 2 也就是 ∥ Q T b ∥ 2 (6)$ $\begin{equation} \Vert b\Vert^2=(q_1^Tb)^2+(q_2^Tb)^2+\cdots+(q_n^Tb)^2\text{也就是$\Vert Q^Tb\Vert^2$}\tag6 \end{equation}$

注解2：因为 $Q^T=Q^{-1}$ ，所以 $QQ^T=I$ 。当我们计算 $QQ^T$ 时，得到的是 $Q$ 行的内积结果( $Q^TQ$ 是列的内积)。因为这个结果也是单位矩阵，由此我们得出一个结论：方阵的行是正交的。行的方向和列完全不同，从几何上看不出为何正交，但是他们真的就是正交：

$Q = ⎡ ⎣ ⎢ 1 / 3 \sqrt 1 / 3 \sqrt 1 / 3 \sqrt 1 / 2 \sqrt 0 - 1 / 2 \sqrt 1 / 6 \sqrt - 2 / 6 \sqrt 1 / 6 \sqrt ⎤ ⎦ ⎥$ $Q=\begin{bmatrix} 1/\sqrt{3}&1/\sqrt{2}&1/\sqrt{6}\\ 1/\sqrt{3}&0&-2/\sqrt{6}\\ 1/\sqrt{3}&-1/\sqrt{2}&1/\sqrt{6} \end{bmatrix}$

长方形矩阵

这一小节讲一下 $Ax=b$ ，其中 $A$ 是长方形矩阵。考虑 $Qx=b$ ，我们现在允许行数大于列数，也就是说 $Q$ 中有 $n$ 个正交列 $q_i$ ，而 $m>n$ ，此时 $Q$ 是 $m\times n$ 矩阵并且不能精确的求解 $Qx=b$ ，也就是需要用到最小二乘。

标准正交列一般会让问题简化，在方阵中我们已经看到了效果，现在我们在长方形矩阵使用一下，重点是注意到 $Q^Q=I$ ，所以 $Q^T$ 依然是 $Q$ 的左逆。

对于最小二乘，在 $Ax=b$ 两边乘以矩阵的转置得到正规方程 $A^TA\hat{x}=A^Tb$ ，而这里的正规方程就是 $Q^TQ=Q^Tb$ ，但是 $Q^TQ=I$ ！因此 $\hat{x}=Q^Tb$ ，当 $Q$ 是方阵时 $\hat{x}$ 就是精确解，或者 $Q$ 是长方形矩阵，此时就需要最小二乘了。

19、如果 $Q$ 的列是标准正交的，那么最小二乘问题就变得容易了：对于大多数 $b$ ，长方形矩阵形式没有解

$Q x Q T Q x^x^p p = b = Q T b = Q T b = Q x^= Q Q T b 对于大多数 b 没有解正规方程有最佳解 x^，其中 Q T Q = I x^i 就是 q T i b b 的投影是 (q T 1 b) q 1 + \dots + (q T n b) q n 投影矩阵是 P = Q Q T$ $\begin{array}{rll} Qx&=b&\text{对于大多数$b$没有解}\\ Q^TQ\hat{x}&=Q^Tb&\text{正规方程有最佳解$\hat{x}$，其中$Q^TQ=I$}\\ \hat{x}&=Q^Tb&\text{$\hat{x}_i$就是$q_i^Tb$}\\ p&=Q\hat{x}&\text{$b$的投影是$(q_1^Tb)q_1+\cdots+(q_n^Tb)q_n$}\\ p&=QQ^Tb&\text{投影矩阵是$P=QQ^T$} \end{array}$

最后一个方程像 $p=A\hat{x}，P=A(A^TA)^{-1}A^T$ ，当列是标准正交时，矩阵 $A^TA$ 变成 $Q^TQ=I$ ，也就是说当向量标准正交时最小二乘中难计算的部分没有了，在轴上的投影不在耦合了， $p$ 是各项的和 $p=(q_1^Tb)q_1+\cdots+(q_n^Tb)q_n$ 。

我们强调以下，投影不是重新构建 $b$ ，只有在 $m=n$ 的方阵情况下才是这样，而对于 $m>n$ 的长方形矩阵，他们不是重建，给出的投影 $p$ 已经不是原来的向量 $b$ 。投影矩阵一般是 $A(A^TA)^{-1}A^T$ ，而这里简化为

$P = Q (Q T Q) - 1 Q T 或者 P = Q Q T (7)$ $\begin{equation} P=Q(Q^TQ)^{-1}Q^T\text{或者}P=QQ^T\tag7 \end{equation}$

注意 $Q^TQ$ 是 $n\times n$ 的单位矩阵，而 $QQ^T$ 是 $m\times m$ 的投影矩阵 $P$ ，它是 $Q$ 列向量上的单位矩阵，但是 $QQ^T$ 的正交补是零矩阵( $Q^T$ 的零空间)。

例3：下面的例子比较简单但是非常典型。假设我们将点 $b=(x,y,z)$ 投影到 $x-y$ 平面上，那么它的投影是 $p=(x,y,0)$ ，并且是分别在 $x$ 轴和 $y$ 轴上投影之和：

$q 1 = ⎡ ⎣ ⎢ 100 ⎤ ⎦ ⎥, (q T 1 b) q 1 = ⎡ ⎣ ⎢ x 00 ⎤ ⎦ ⎥; q 2 = ⎡ ⎣ ⎢ 010 ⎤ ⎦ ⎥, (q T 2 b) q 2 = ⎡ ⎣ ⎢ 0 y 0 ⎤ ⎦ ⎥$ $q_1=\begin{bmatrix} 1\\0\\0 \end{bmatrix}, (q_1^Tb)q_1=\begin{bmatrix} x\\0\\0 \end{bmatrix}; q_2=\begin{bmatrix} 0\\1\\0 \end{bmatrix}, (q_2^Tb)q_2=\begin{bmatrix} 0\\y\\0 \end{bmatrix}$

这个投影矩阵是

$P = q 1 q T 1 + q 2 q T 2 = ⎡ ⎣ ⎢ 100010000 ⎤ ⎦ ⎥, P ⎡ ⎣ ⎢ x y z ⎤ ⎦ ⎥ = ⎡ ⎣ ⎢ x y 0 ⎤ ⎦ ⎥$ $P=q_1q_1^T+q_2q_2^T= \begin{bmatrix} 1&0&0\\0&1&0\\0&0&0 \end{bmatrix}, P\begin{bmatrix} x\\y\\z \end{bmatrix} =\begin{bmatrix} x\\y\\0 \end{bmatrix}$

在平面上的投影=在标准正交向量 $q_1,q_2$ 上投影之和。

例4：当测试时间的平均值是零时，拟合直线得到的是正交列。我们取 $t_1=-3,t_2=0,t_3=3$ ，然后拟合 $y=C+Dt$ 得到含有两个未知量的三个方程：

$C C C + + + D t 1 D t 2 D t 3 = = = y 1 y 2 y 3, 或者 ⎡ ⎣ ⎢ 111 - 3 03 ⎤ ⎦ ⎥ [C D] = ⎡ ⎣ ⎢ y 1 y 2 y 3 ⎤ ⎦ ⎥$ $\begin{array}{ccccc} C&+&Dt_1&=&y_1\\ C&+&Dt_2&=&y_2\\ C&+&Dt_3&=&y_3 \end{array},\text{或者} \begin{bmatrix} 1&-3\\1&0\\1&3 \end{bmatrix} \begin{bmatrix} C\\D \end{bmatrix}= \begin{bmatrix} y_1\\y_2\\y_3 \end{bmatrix}$

列 $(1,1,1),(-3,0,-3)$ 是正交的，我们可以分别计算他们的投影，分别求出最佳系数 $\hat{C},\hat{D}$ ：

$C^= [ 1 1 1 ] [ y 1 y 2 y 3 ] T 1 2 + 1 2 + 1 2, D^= [ - 3 0 3 ] [ y 1 y 2 y 3 ] T ( - 3 ) 2 + 0 2 + 3 2,$ $\hat{C}=\frac{\begin{bmatrix}1&1&1\end{bmatrix}\begin{bmatrix}y_1&y_2&y_3\end{bmatrix}^T}{1^2+1^2+1^2}, \hat{D}=\frac{\begin{bmatrix}-3&0&3\end{bmatrix}\begin{bmatrix}y_1&y_2&y_3\end{bmatrix}^T}{(-3)^2+0^2+3^2},$

注意 $\hat{C}=(y_1+y_2+y_3)/3$ 是数据的均值，它给出了水平线的最佳拟合，而 $\hat{D}t$ 是通过原点直线的最佳拟合。这些列是正交的，所以这两部分的和就是所以直线的最佳拟。因为列不是单位限量，所以 $\hat{C},\hat{D}$ 都需要除以各自的长度。

正交列的确对求解问题带来许多方便。考虑另一种情况，如果测量时间的平均值不是0， $\bar{t}=(t_1+\cdots+t_m)/m$ ，那么时间原点就变成了 $\bar{t}$ ，我们不再使用 $y=C+Dt$ ，而是用 $y=c+d(t-\bar{t})$ ，距离说明：

$c^= [ 1 \dots 1 ] [ y 1 \dots y m ] T 1 2 + 1 2 + \dots + 1 2 = y 1 + \dots + y m m, d^= [ ( t 1 - t ¯ ) \dots ( t m - t ¯ ) ] [ y 1 \dots y m ] T ( t 1 - t ¯ ) 2 + \dots + ( t m - t ¯ ) 2 = Σ ( t i - t ¯ ) y i Σ ( t i - t ¯ ) 2 (8)$ $\begin{align} &\hat{c}=\frac{\begin{bmatrix}1&\cdots&1\end{bmatrix}\begin{bmatrix}y_1&\cdots&y_m\end{bmatrix}^T}{1^2+1^2+\cdots+1^2}=\frac{y_1+\cdots+y_m}{m},\nonumber\\ &\hat{d}=\frac{\begin{bmatrix}(t_1-\bar{t})&\cdots&(t_m-\bar{t})\end{bmatrix}\begin{bmatrix}y_1&\cdots&y_m\end{bmatrix}^T}{(t_1-\bar{t})^2+\cdots+(t_m-\bar{t})^2}=\frac{\Sigma(t_i-\bar{t})y_i}{\Sigma(t_i-\bar{t})^2}\tag8 \end{align}$

最佳解 $\hat{c}$ 是均值，同时得到 $\hat{d}$ 的简化形式。之前 $A^TA$ 的反对角线元素是 $\Sigma t_i$ ，转变了时间 $\hat{t}$ 后变成零，而这个转变就是格拉姆-施密特过程。

正交矩阵在数值线性代数中非常重要，因为他们引入了不稳定性。当长度保持不变的时候，可以控制住舍入误差。正交向量已经是非常基本的技术，可能出了消元法它就是第二基本的方法了。并且由它得到的分解 $A=QR$ 和 $A=LU$ 一样出名。