《神经网络》第二章：线性代数笔记

最新推荐文章于 2022-08-12 16:58:38 发布

ErinLiu虎哥的铲屎员

最新推荐文章于 2022-08-12 16:58:38 发布

阅读量352

点赞数 1

分类专栏：《神经网络》-花书文章标签：花书

本文链接：https://blog.csdn.net/liuerin/article/details/97921966

版权

《神经网络》-花书专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

1 向量索引表示

有向量 $x=\begin{bmatrix}x_1 \\x_2 \\ \vdots \\ x_n\end{bmatrix}$ ，有集合 $S=\{1,3,6\}$ ，那么

$x_S$ ,表示索引 $x$ 向量中的1,3,6元素
$x_{-S}$ ，表示除1,3,6以外的元素
$x_{-1}$ ，表示除第一个元素以外的元素

2 矩阵索引表示

有矩阵 $A_{m\times n}$

$A_{i,:}$ ，表示第i行的所有元素
$A_{:,i}$ ，表示第i列的所有元素
$f(A)_{i,j}$ ，表示函数 $f$ 作用于第i行第j列的元素

3 矩阵和标量的运算

矩阵相加

$\begin{aligned} C&=A+B\\ C_{i,j} & = A_{i,j} + B_{i,j} \end{aligned}$

标量和矩阵相乘及相加
$\begin{aligned} D &= a\cdot B + c \\ D_{ij} & = a\cdot B_{i,j} + c \end{aligned}$
矩阵和向量相加
$\begin{aligned} C &= A + b \\ C_{i,j} &= A_{i,j} + b_j \end{aligned}$
向量和矩阵的每一行相加。隐式的复制向量b到很多位置的方式，称为广播
Hadamard乘积/元素对应乘积( $A\bigodot B$ )

$\begin{aligned} C &= A\bigodot B \\ C_{i,j} & = A_{i,j} \cdot B_{i,j} \end{aligned}$

3 线性组合

$\begin{aligned} Ax = \sum _i x_i A_{:,i} \end{aligned}$

4 解方程组

$A x = b$

把A的列向量想象成从原点出发的不同方向，确定有多少方法可以到达b点。是否有解，相当于确定b是否在A的列向量张成的空间中。

5 奇异矩阵

列向量线性相关的方阵

6 范数

norm，把向量映射到非负值的函数
$\parallel x \parallel_p = \Big( \sum_i |x_i|^p\Big)^{\frac{1}{p}}$

L2范数：在原点附近增长很缓慢，不好区分零元素和非零元素
L1范数：当零元素和非零元素之间茶语非常重要的时候通常会使用L1范数。
Frobenius范数:衡量矩阵的大小
$\parallel A\parallel _F = \sqrt{\sum_{i,j} A^2_{i,j}}$

7 标准正交

$x^Ty=0,\parallel x\parallel_2=1,\parallel y\parallel_2=1$
则x,y是标准正交

8 正交矩阵

行向量和裂像狼分别是标准正交的方阵
$A^TA = AA^T=I$
$A^{-1}=A^T$

9 特征值，特征向量

右特征值，特征向量
$\lambda v$
特征分解
设A有n个线性无关的特征向量 $\{v_1,\cdots,v_n\}$ ，对应的特征值 $\{\lambda_1,\cdots,\lambda_n\}$ ；用特征向量构成一个矩阵 $\begin{bmatrix}v_1,\cdots,v_n \end{bmatrix}$ ，特征值连成一个向量 $\lambda=\begin{bmatrix}\lambda_1,\cdots,\lambda_n\end{bmatrix}^T$ ，那么
$A=Vdiag(\lambda)V^{-1}$
每个实对称矩阵都可以分解成实特征向量和实特征值

10 正定

正定矩阵(positive definite)：所有特征值都是正数
半正定矩阵(psitive semidefinite):所有特征都是非负数的矩阵
负定矩阵：所有的特征值都是负数的矩阵
半负矩阵：所有的特征是都是非正数的矩阵。

如果是半正定矩阵，能保证 $x^TAx \geq0$ .
如果是正定矩阵，能保证 $x^TAx =0 => x=0$

11 奇异值分解

singular value decomposition,SVD
可以将矩阵分解为奇异向量(singular vector)和奇异值(singular value)

$A = UDV^T$
其中A矩阵维度是 $m\times n$ ；U是正交矩阵,维度是 $m\times m$ ；V是正交矩阵,维度是 $n\times n$ 。D是对角矩阵，维度是 $m\times n$ 。
$\begin{aligned} AA^T &= UDD^TU^T \\ A^TA &= VDD^TV^T \end{aligned}$

令 $U=\begin{bmatrix}u_1,u_2,\cdots,u_m \end{bmatrix}$ ， $V=\begin{bmatrix}v_1,v_2,\cdots,v_n \end{bmatrix}$ , $D=\begin{bmatrix}\lambda_1^{\frac{1}{2}}&0&\cdots\\ 0&\lambda_2^{\frac{1}{2}}&\cdots\\ 0&\cdots&\lambda_n^{\frac{1}{2}} \\\cdots &0&\cdots\end{bmatrix}_{m\times n}$
那么
$\lambda_1^{\frac{1}{2}}u_1v_1^T + \lambda_2^{\frac{1}{2}}u_2v_2^T +\cdots + \lambda_n^{\frac{1}{2}}u_nv_n^T$

12 伪逆，Moore-Penrosse

$A x = y$

逆矩阵
当A矩阵的维度 $n\times n$ 且A可逆时
$x = A^{-1}y$
伪逆矩阵

定义
$A^+ = \lim_{\alpha ->0} (A^TA + \alpha I)A^T$
为A的伪逆矩阵。

如果A矩阵维度 $m\times n,m\quad \neq n$ 。使 $A x$ 与 $y$ 尽可能相等
$\min \parallel Ax-y\parallel^2$
求导
$\frac{\partial J}{\partial x} = (A^TAx-A^Ty)=0$
即
$A^TAx = A^Ty$
$A^TA$ 是 $n\times n$ 维对称矩阵。

推导1

当 $m > n$ ， $A^TA$ 一般可逆，此时 $x = (A^TA)^{-1}A^Ty$ 。
当 $m < n$ ， $R(A^TA) < R(A) < n$ ，矩阵 $A^TA$ 不可逆.
令
$\begin{aligned} J &= \parallel Ax-y\parallel^2 + \lambda\parallel x \parallel ^2 \\ \frac{\partial J}{\partial x} &= A^TAx-A^Ty + \lambda x = 0\\ &(A^TA + \lambda I)x = A^Ty\\ x&= (A^TA + \lambda I)^{-1}A^Ty \end{aligned}$

推导2
$A^TA$ 是对称矩阵，可对角化
$\begin{aligned} A^TA &= p^{-1}diag(\begin{bmatrix} \lambda_1,\cdots,\lambda_n\end{bmatrix}])p\\ |A^TA|&=\lambda_1*\cdots*\lambda_n \\ \end{aligned}$

$x^T(A^TA)x = (Ax)^T(Ax) \geq 0 \rightarrow \lambda_i \geq 0$ ，此时 $A^TA|$ 仍然可能为0，不一定可逆
$x^T(A^TA+\lambda I)x=(Ax)^T(Ax) + \lambda x^Tx >0 \rightarrow \lambda_i >0$ ，此时 $|A^TA+\lambda I|>0$ 恒成立，一定可逆

13 PCA

两种理解方式

投影后方差最大(已中心化)
$\begin{aligned} \max &\quad \frac{1}{m} \sum (x^Tw)^2 \\ s.t. &\quad w^Tw=1 \end{aligned}$
最小方差（投影后点和原点距离最小）
$\min \sum[x - (x^Tw)w]^2$
$\begin{aligned} J&= \sum[x - (x^Tw)w]^2\\ &= \sum[x - (x^Tw)w]^T[x - (x^Tw)w]\\ &= \sum[x^Tx - x^T(x^Tw)w - (x^Tw)w^Tx + (x^Tw)(x^Tw)w^Tw] \\ & = \sum[x^Tx - (x^Tw)^2 - (x^Tw)^2 + (x^Tw)^2] \\&= \sum(x^Tx - (x^Tw)^2)\\ J &= min \sum -(x^Tw)^2 \end{aligned}$

ErinLiu虎哥的铲屎员

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《神经网络》第二章：线性代数笔记

文章目录1 向量索引表示2 矩阵索引表示3 矩阵和标量的运算3 线性组合4 解方程组5 奇异矩阵6 范数7 标准正交8 正交矩阵9 特征值，特征向量10 正定11 奇异值分解12 伪逆，Moore-Penrosse13 PCA1 向量索引表示有向量x=[x1x2⋮xn]x=\begin{bmatrix}x_1 \\x_2 \\ \vdots \\ x_n\end{bmatrix}x=⎣⎢⎢⎢⎡...
复制链接

扫一扫