文章目录
2 Basic of Math and Graph
2.1 Linear Algebra(线性代数)
线性代数的语言和概念已经在计算机科学的许多领域得到了广泛的应用,机器学习也不例外。对机器学习的良好理解是建立在对线性代数彻底理解的基础上的。在本节中,我们将简要回顾线性代数中的一些重要概念和计算方法,这些概念和计算方法对于理解本书的其他内容是必要的。在本节中,我们将复习线性代数中的一些基本概念和计算,这些概念和计算对于理解本书的其他内容是必要的。
2.1.1 Basic Concepts(基本概念)
- 标量 一个数
- 向量 一列有序数字,可以表示为以下形式
x = [ x 1 x 2 ⋮ x n ] (2-1) \mathbf{x}=\left[\begin{array}{c}x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{array}\right] \tag{2-1} x=⎣⎢⎢⎢⎡x1x2⋮xn⎦⎥⎥⎥⎤(2-1)
向量的范数衡量其长度。 L p L_p Lp范数定义如下:
∥ x ∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p (2-2) \|\mathrm{x}\|_{p}=\left(\sum_{i=1}^{n}\left|x_{i}\right|^{p}\right)^{\frac{1}{p}} \tag{2-2} ∥x∥p=(i=1∑n∣xi∣p)p1(2-2)
L 1 L_1 L1范数, L 2 L_2 L2范数和 L ∞ L_\infty L∞范数经常用于机器学习中。
L 1 L_1 L1范数可以简化为:
∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ (2-3) \|\mathbf{x}\|_{1}=\sum_{i=1}^n\left|x_{i}\right| \tag{2-3} ∥x∥1=i=1∑n∣xi∣(2-3)
在欧几里得空间 R n \mathbb{R}^{n} Rn中, L 2 L_2 L2范数用于测量向量的长度,其中:
∥ x ∥ 2 = ∑ i = 1 n x i 2 (2-4) \|\mathbf{x}\|_{2}=\sqrt{\sum_{i=1}^{n}\mathbf{x}_{i}^{2}} \tag{2-4} ∥x∥2=i=1∑nxi2(2-4)
L ∞ L_\infty L∞范数也被称之为最大穷范数:
∥ x ∥ ∞ = max i ∣ x i ∣ (2-5) \|\mathrm{x}\|_{\infty}=\max _{i}\left|x_{i}\right| \tag{2-5} ∥x∥∞=imax∣xi∣(2-5)
在 L p L_p Lp范数的情况下,两个向量 x 1 \mathbf{x_1} x1, x 2 \mathbf{x_2} x2 的距离(其中 x 1 \mathbf{x_1} x1, x 2 \mathbf{x_2} x2 在同一线性空间中)可以定义为:
D p ( x 1 , x 2 ) = ∥ x 1 − x 2 ∥ p (2-6) \mathbf{D}_p\left(\mathbf{x_1,x_2}\right) = \|\mathbf{x_1-x_2}\|_{p} \tag{2-6} Dp(x1,x2)=∥x1−x2∥p(2-6)
一组向量 x 1 , x 2 , … , x m \mathbf{x_1,x_2, \ldots , x_{m}} x1,x2,…,xm 当且仅当不存在一组不全为0的标量 λ 1 , λ 2 , … , λ m \mathbf{\lambda_{1},\lambda_{2}, \ldots , \lambda_{m}} λ1,λ2,…,λm时,可以称之为线性无关,例如:
λ 1 x 1 + λ 2 x 2 + ⋯ + λ m x m = 0 (2-7) \lambda_{1} \mathrm{x}_{1}+\lambda_{2} \mathrm{x}_{2}+\cdots+\lambda_{m} \mathrm{x}_{m}=0 \tag{2-7} λ1x1+λ2x2+⋯+λmxm=0(2-7)
- 矩阵:二维数组,可以表示为以下形式
A = [ a 11 a 12 … a 1 n a 21 a 22 … a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 … a m n ] (2-8) \mathbf{A}=\left[\begin{array}{cccc} a_{11} & a_{12} & \ldots & a_{1 n} \\ a_{21} & a_{22} & \ldots & a_{2 n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m 1} & a_{m 2} & \ldots & a_{m n} \end{array}\right] \tag{2-8} A=⎣⎢⎢⎢⎡a11a21⋮am1a12a22⋮am2……⋱…a1na2n⋮amn⎦⎥⎥⎥⎤(2-8)
其中, A ∈ R m × n \mathbf{A}\in\mathbb{R}^{m \times n} A∈Rm×n
给定两个矩阵: A ∈ R m × n \mathbf{A}\in\mathbb{R}^{m \times n} A∈Rm×n 和 B ∈ R n × p \mathbf{B}\in\mathbb{R}^{n \times p} B∈Rn×p, A B \mathbf{AB} AB的就很乘积可以表示为 C ∈ R m × p \mathbf{C}\in\mathbb{R}^{m \times p} C∈Rm×p,其中:
C i j = ∑ k = 1 n A i k B k j (2-9) \mathbf{C}_{ij} = \sum_{k=1}^{n}\mathbf{A}_{ik}\mathbf{B}_{kj} \tag{2-9} Cij=k=1∑nAikBkj(2-9)
可以证明,矩阵积是关联的,但不一定是换算的。用数学语言来说:
( A B ) C = A ( B C ) (2-10) \mathbf{\left(AB\right)C = A\left(BC\right)} \tag{2-10} (AB)C=A(BC)(2-10)
对任意矩阵A、B、C成立(假设乘法合法)。
然而:
A B = B A (2-11) \mathbf{AB = BA} \tag{2-11}