花书第二章线性代数笔记

最新推荐文章于 2021-10-08 19:46:01 发布

Crazy WolfT1

最新推荐文章于 2021-10-08 19:46:01 发布

阅读量478

点赞数

分类专栏：深度学习文章标签：深度学习线性代数

本文链接：https://blog.csdn.net/qq_22979337/article/details/87992167

版权

深度学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章目录

第二章线性代数

第二章线性代数

简要介绍深度学习算法中涉及到的线性代数知识。

掌握深度学习中所需要的线性代数和矩阵求导有关的数学知识

线性代数基础花书书本[p27-p46]部分

矩阵求导 https://github.com/soloice/Matrix_Derivatives

2.1 标量、向量、矩阵和张量

标量（scalar）：一个单独的数，用小写字母表示，常被设为变量，如 $n$ ，使用时需指定数据类型。
向量（vector）：一列有序排列的数，用粗体的小写变量表示，如 $\textbf{x}$ ，可以通过脚标对元素索引。
矩阵（matrix）：一个二维数组，用粗体的大写变量表示，如 $\textbf{x}$ ，可以通过行列位置对元素索引。
张量（tensor）：数组中的元素分布在若干维坐标的规则网格中，用字体 $\textbf{A}$ 表示。举例解释，把二维数组放在三维坐标系中，维度加1。
简单运算：
- 转置（transpose）：以主对角线（左上到右下）- 为轴做镜像操作。
- 矩阵相加：矩阵形状相同
- 标量和矩阵相乘或相加：标量与矩阵每个元素相乘或相加
- 广播（broadcasting）：向量和矩阵相加

2.2 矩阵和向量相乘

矩阵乘积（matrix product）：两个矩阵 $\textbf{A}$ 和 $\textbf{A}$ 相乘， $\textbf{A}$ 的列数必须和 $\textbf{B}$ 的行数相等。
$ A:m \times n;B:n \times p;C=AB:m \times p $
$C_{i,j}=\sum _{k} A_{i,k}B_{k,j}$
元素对应乘积（element-wise product）或Hadamard 乘积（Hadamard product）：两个矩阵中对应元素的乘积，记为 $\bigodot B$
点积（dot product）：两个相同维数的向量 $\textbf{x}$ 和 $\textbf{y}$ 相乘
性质：
- 分配率
  $A (B + C) = A B + A C$
- 结合律
  $A (B C) = (A B) C$
- 一般不满足交换律
  $\neq BA$
- 转置
  $AB)^{T}=B^{T}A^{T}$
线性方程组：
$A x = b$

2.3 单位矩阵和逆矩阵

单位矩阵（identity matrix）：任意向量或矩阵和单位矩阵相乘，都不会改变，记为 $\textbf{y}$ 。所有沿主对角线的元素都是1，而所有其他位置的元素都是 0。
矩阵逆（matrix inversion）：矩阵满足如下条件
$A^{-1}A=I_{n}$

2.4 线性相关和生成子空间

线性组合（linear combination）：把 $\textbf{A}$ 的列向量看做一个元素，则 $\textbf{A}$ 看做一个行向量，可用下式表示：
$Ax=\sum _{i} x_{i}A_{:,i}$
生成子空间（span）：一组向量的线
性组合，是指每个向量乘以对应标量系数之后的和，即：
$\sum _{i} c_{i}v^{(i)}$
线性相关（linear dependence）：某个向量是一组向量中某些向量的线性组合
线性无关（linear independent）：一组向量中
的任意一个向量都不能表示成其他向量的线性组合
方阵（square）：矩阵行和列相等
奇异矩阵（singular）：列向量线性相关的方阵，不可逆

2.5 范数

范数（norm）:衡量向量大小
$\left \| x \right \|_{p}=\left ( \sum _{i}\left | x_{i} \right | ^{p} \right ) ^{\frac{1}{p}}$
欧几里得范数（Euclidean norm）: $p = 2$ ，它表示从原点
出发到向量 $\textbf{x}$ 确定的点的欧几里得距离。在机器学习中频繁使用，不指明 $p$ 值时，默认为欧几里得距离。
$L 1$ 范数：在各个位置斜率相同
$\left \| x \right \|_{1}= \sum _{i}\left | x_{i} \right |$
最大范数（max norm）：向量中具有最大幅值的元素的绝对值
$\left \| x \right \|_{\infty }= \max \limits_{i}\left | x_i \right |$
Frobenius 范数（Frobenius norm）：衡量矩阵的大小
$\left \| A \right \|_{F}= \sqrt{\sum _{i,j}A_{i,j}^{2}}$

2.6 特殊类型的矩阵和向量

对角矩阵（diagonal matrix）：只在主对角线上含有非零元素，其他位置都是零。例如，单位矩阵，用 $d i a g (v)$ 表示
对称矩阵（diagonal matrix）：转置和自己相等的矩阵
单位向量（unit vector）是具有单位范数（unit norm）的向量：

$\left \| x \right \|_{2}= 1$

正交（orthogonal）：两个向量之间的夹角是90 度
$x^{\top }y=0$
标准正交（orthonormal）:向量不仅互相正交，并且范数都为1
正交矩阵（orthogonal matrix）是指行向量和列向量是分别标准正交的方阵：
$A^{\top }A=AA^{\top }=I,A^{-1}=A^{\top }$

2.7 特征分解

特征分解（eigendecomposition）：将矩阵分
解成一组特征向量和特征值。
方阵 $\textbf{A}$ 的特征向量（eigenvector）是指与 $\textbf{A}$ 相乘后相当于对该向量进行缩放
的非零向量v，标量λ被称为这个特征向量对应的特征值（eigenvalue）

$\lambda v$

特征分解（eigendecomposition）：假设矩阵 $\textbf{A}$ 有 $n$ 个线性无关的特征向量，将特征向量连接成一个矩阵 $\textbf{V}$ ，使得每一列是一个特征向量；将特征值连接成一个向量 $\mathit{\mathit{\lambda}}$ ， $\textbf{A}$ 的特征分解为：
$diag(\lambda) V_{-1}$
正定（positive definite）所有特征值都是正数的矩阵；
$x^{T}Ax= 0\Rightarrow x=0$
半正定（positive semidefinite）:所有特征值都是非负数的矩阵;
$\forall x,x^{T}Ax\geqslant 0$
负定（negative definite）:所有特征值都是负数的矩阵；
半负定
（negative semidefinite）：所有特征值都是非正数的矩阵。

2.8 奇异值分解

奇异值分解（singular value decomposition, SVD），将矩阵分
解为奇异向量（singular vector）和奇异值（singular value）。每
个实数矩阵都有一个奇异值分解，但不一定都有特征分解。

假设 $\textbf{A}$ 是一个 $\times n$ 的矩阵，那么 $\textbf{U}$ 是一个 $\times m$ 的矩阵， $\textbf{D}$ 是一个 $\times n$ 的矩阵，V 是一个 $\times n$ 矩阵。矩阵 $\textbf{U}$ 和 $\textbf{V}$ 都定义为正交矩阵，而矩阵 $\textbf{D}$ 定义为对角矩阵。注意，矩阵 $\textbf{D}$ 不一定是方阵。
$A=UDV^{T}$

奇异值（singular value）:对角矩阵 $\textbf{D}$ 对角线上的元素；
左奇异向量（left singular vector）：矩阵 $\textbf{U}$ 的列向量；
右奇异向量（right singular vector）：矩阵 $\textbf{V}$ 的列向量。

知乎参考资料(https://zhuanlan.zhihu.com/p/31386807)

2.9 Moore-Penrose伪逆

Moore-Penrose 伪逆（Moore-Penrose pseudoinverse）：。矩阵 $\textbf{A}$ 的伪逆定义为：
$^{+}=\lim_{\alpha \rightarrow 0}(A^{T}A+\alpha I)^{-1}A^{T}=VD^{+} U^{T}$
其中，矩阵 $\textbf{U}$ ， $\textbf{D}$ 和 $\textbf{V}$ 是矩阵 $\textbf{A}$ 奇异值分解后得到的矩阵。对角矩阵 $\textbf{D}$ 的伪逆 $D^{+}$ 是其非零元素取倒数之后再转置得到的.

2.10 迹运算

迹运算返回的是矩阵对角元素的和：
$Tr(A)=\sum_{i}A_{i,i}\left \| A \right \|_{F}=\sqrt{Tr(AA^{T})}$
性质：
- 转置不变，
  $Tr(A)=Tr(A^{T})$
- 交换律，
  $T r (A B C) = T r (C A B) = T r (B C A)$
- 标量在迹运算后仍然是它自己。
  $a = T r (a)$

2.11 行列式

行列式，记作 $d e t (A)$ ，是一个将方阵 $\textbf{A}$ 映射到实数的函数。行列式等于矩阵特征值的乘积。

2.12 实例：主成分分析

主成分分析（principal components analysis, PCA）是一个简单的机器学习算法，可以通过基础的线性代数知识推导，可用来降维操作。自行学会推导。

Crazy WolfT1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
花书第二章线性代数笔记

文章目录第二章线性代数2.1 标量、向量、矩阵和张量2.2 矩阵和向量相乘2.3 单位矩阵和逆矩阵2.4 线性相关和生成子空间2.5 范数2.6 特殊类型的矩阵和向量2.7 特征分解2.8 奇异值分解2.9 Moore-Penrose伪逆2.10 迹运算2.11 行列式2.12 实例：主成分分析第二章线性代数简要介绍深度学习算法中涉及到的线性代数知识。掌握深度学习中所需要的线性代数和矩阵...
复制链接

扫一扫