接上一篇文章 : DeepLearning深度学习(花书)读书笔记——线性代数(一)
6、特殊类型的矩阵和向量
有些特殊类型的矩阵是特别有用的。
对角矩阵:只在主对角线上含有非零元素,其它位置元素都是零。即矩阵 D \bm{D} D是对角矩阵的条件为:当且仅当对于所有的 i ≠ j , D i , j = 0 i\ne j,\;D_{i,j}=0 i=j,Di,j=0。比如之前章节中出现的对角矩阵:单位矩阵,其对角元素都是1.在数学上,可以用 d i a g ( v ) diag(\bm{v}) diag(v)表示对角元素由向量 v \bm{v} v给定一个对角方阵。
对角矩阵的乘法计算非常高效,计算 d i a g ( v ) x diag(\bm{v})\bm{x} diag(v)x时,只需要将 x \bm{x} x中每个元素 x i x_i xi放大 v i v_i vi倍,即 d i a g ( v ) x = v ⊙ x diag(\bm{v})\bm{x}=\bm{v}\odot\bm{x} diag(v)x=v⊙x。当且仅当对角元素都是非零值时,对角方阵的逆矩阵是存在的,计算也很高效,即 d i a g ( v ) - 1 = d i a g ( [ 1 / v 1 , 1 / v 2 , … , 1 / v n ] ⊤ ) diag(\bm{v})^{\text{-}1}=diag([1/v_1,1/v_2,\dots,1/v_n]^\top) diag(v)-1=diag([1/v1,1/v2,…,1/vn]⊤)。
在机器学习中,通过将一引起矩阵限制为对角矩阵,可以得到计算代价较低的算法。
并非所有的对角矩阵都是方阵。非方阵的对角矩阵没有逆矩阵,但我们仍可以高效的计算它们的乘法。对于长方形对角矩阵 D \bm{D} D而言,乘法 D x \bm{Dx} Dx会涉及 x \bm{x} x中每个元素的缩放,如果 D \bm{D} D是瘦长型矩阵,那么在缩放后的末尾添加一些零;如果 D \bm{D} D是胖宽型矩阵,那么在缩放后去掉最后一些元素。例如:
[ 1 0 0 0 2 0 0 0 3 0 0 0 0 0 0 ] [ 6 5 4 ] = [ 6 10 12 0 0 ] 和 [ 1 0 0 0 0 0 2 0 0 0 0 0 3 0 0 ] [ 6 5 4 3 2 ] = [ 6 10 12 ] \begin{bmatrix} 1&0&0 \\ 0&2&0 \\ 0&0&3\\ 0&0&0\\ 0&0&0 \end{bmatrix} \begin{bmatrix} 6 \\ 5 \\ 4 \end{bmatrix}= \begin{bmatrix} 6 \\ 10 \\ 12 \\ 0 \\ 0 \end{bmatrix} 和 \begin{bmatrix} 1&0&0&0&0 \\ 0&2&0&0&0 \\ 0&0&3&0&0 \end{bmatrix} \begin{bmatrix} 6 \\ 5 \\ 4 \\ 3 \\ 2 \end{bmatrix} =\begin{bmatrix} 6 \\ 10 \\ 12 \end{bmatrix}
100000200000300
654
=
6101200
和
100020003000000
65432
=
61012
对称矩阵:转置和自己相等的矩阵,即:
A = A ⊤ (2.35) \bm{A}=\bm{A}^\top \tag{2.35} A=A⊤(2.35)
单位向量是具有单位范数的向量,即:
∣ ∣ x ∣ ∣ 2 = 1 (2.36) ||\bm{x}||_2=1 \tag{2.36} ∣∣x∣∣2=1(2.36)
如果 x ⊤ y = 0 \bm{x}^\top\bm{y}=0 x⊤y=0,那么向量 x \bm{x} x和向量 y \bm{y} y相互正交,如果两个向量都有非零范数,则这两个向量之间的夹角是 9 0 o 90^o 90o。在 R n \R^{n} Rn中,最多有 n n n 个范数非零向量相互正交,如果这些向量范数都为 1 1 1,我们称为标准正交。
正交矩阵:定义为一个行向量和列向量都标准正交的方阵,例如:
[ 1 0 0 0 1 0 0 0 1 ] 或 [ 1 2 1 2 0 1 2 - 1 2 0 0 0 1 ] \begin{bmatrix} 1&0&0 \\ 0&1&0 \\ 0&0&1 \end{bmatrix} 或 \begin{bmatrix} 1\over\sqrt{2}&1\over\sqrt{2}&0 \\ 1\over\sqrt{2}&\text{-}{1\over\sqrt{2}}&0 \\ 0&0&1 \end{bmatrix}
100010001
或
2121021-210001
正交矩阵有以下性质:
A ⊤ A = A A ⊤ = I (2.37) \bm{A}^\top\bm{A}=\bm{A}\bm{A}^\top=\bm{I} \tag{2.37} A⊤A=AA⊤=I(2.37)
其中, I \bm{I} I是单位阵,则有: