前言:此为学习《深度学习》所做笔记。
参考:《深度学习》、《机器学习》-周志华、《统计学习方法》-李航。
1 线性代数
1.1 标量、向量、矩阵和张量
- 标量(scalar)
- 向量(vector)
- 矩阵(matrix)
- 张量(tensor)
1.2 矩阵和向量相乘
- 两个矩阵A和B的矩阵乘积是第三个矩阵C,其中A的列数必须和B的行数相等。
- 两个矩阵A和B的元素对应乘积或者Hadamard乘积,记为A⊙B。
- 两个相同维数的向量 x 和 y 的 点积(dot product)可看作是矩阵乘积 xTy。
- 矩阵乘积服从分配律:A(B + C) = AB + AC
- 矩阵乘积也服从结合律:A(BC) = (AB)C
- 矩阵乘积并不满足交换律:AB = BA 的情况并非总是满足
- 两个向量的 点积(dot product)满足交换律:xTy = yTx
- 矩阵乘积的转置有着简单的形式:(AB)T = BTAT
- 可以表达下列线性方程组:Ax = b
1.3 单位矩阵和逆矩阵
- 单位矩阵(identity matrix):任意向量和单位矩阵相乘,其值都不会被改变。记为In ∈ Rn×n。
- 矩阵 A 的 矩阵逆(matrix inversion)记作 A-1,其定义的矩阵满足如下条件:A-1A = In。
- 当逆矩阵 A-1存在时,有几种不同的算法都能找到它的闭解形式。
1.4 线性相关和生成子空间
- 对于方程组 Ax = b 而言,对于向量 b 的某些值,有可能不存在解,或者存在无限多个解。存在多于一个解但是少于无限多个解的情况是不可能发生的;因为如果 x 和 y 都是某方程组的解,则z = αx + (1 − α)y。
- 一组向量的 生成子空间(span)是原始向量线性组合后所能抵达的点的集合。
- 确定 Ax = b 是否有解相当于确定向量 b 是否在 A 列向量的生成子空间中。这个特殊的生成子空间被称为 A 的 列空间(column space)或者 A 的 值域(range)。
- 一个列向量线性相关的方阵被称为 奇异的(singular)。
- 如果矩阵 A 不是一个方阵或者是一个奇异的方阵,该方程仍然可能有解。但是我们不能使用矩阵逆去求解。
1.5 范数
- 范数(norm)的函数衡量向量大小,Lp 范数定义如下:
范数是满足下列性质的任意函数:
- f(x) = 0 ) x = 0
- f(x + y) ≤ f(x) + f(y) (三角不等式(triangle inequality))
- 所有的α ∈ R, f(αx) = |α|f(x)
当 p = 2 时, L2 范数被称为 欧几里得范数(Euclidean norm)。它表示从原点
出发到向量 x 确定的点的欧几里得距离。
- 平方 L2 范数也经常用来衡量向量的大小,可以简单地通过点积 xTx 计算。
- 衡量矩阵的大小,最常见的做法是使用 Frobenius 范数(Frobenius norm) :
1.6 特殊类型的矩阵和向量
- 对角矩阵
- 对称矩阵
- 单位向量:∥x∥2 = 1
- 标准正交
- 正交矩阵:是指行向量和列向量是分别标准正交的方阵
1.7 特征分解
- 正如我们可以通过分解质因数来发现整数的一些内在性质,我们也可以通过分解矩阵来发现矩阵表示成数组元素时不明显的函数性质。
- 特征分解(eigendecomposition)是使用最广的矩阵分解之一,即我们将矩阵分解成一组特征向量和特征值。
- 方阵 A 的 特征向量(eigenvector)是指与 A 相乘后相当于对该向量进行缩放的非零向量 v:Av = λv。
- 如果 v 是 A 的特征向量,那么任何缩放后的向量 sv (s ∈ R,s ̸= 0) 也是 A 的特征向量。此外, sv 和 v 有相同的特征值。基于这个原因,通常我们只考虑单位特征向量。