深度学习 DEEP LEARNING 1-2章

最新推荐文章于 2024-08-10 19:08:37 发布

qy-zhang

最新推荐文章于 2024-08-10 19:08:37 发布

阅读量442

点赞数 1

分类专栏：深度学习（花书）文章标签：深度学习 PCA SVD

本文链接：https://blog.csdn.net/weixin_41877215/article/details/102882889

版权

本文介绍了深度学习经典教材《Deep Learning》的前两章内容，包括矩阵运算、特殊矩阵、特征分解、SVD奇异值分解及其应用。文章详细探讨了矩阵的对角化、逆矩阵、PCA主成分分析等相关概念，强调了SVD在数据压缩和降维中的重要性。

摘要由CSDN通过智能技术生成

深度学习 DEEP LEARNING 1-2章

文章目录

深度学习 DEEP LEARNING 1-2章

1.神书简介

《deep Learning》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰写，其被奉为AI界圣经。因其封面为AI生成的鲜花图像，故其“花书”之名广为传播。

其大致可以分为三大部分：各种基础（属地基型，学此部分的同时可佐以线性代数、李航统计学方法、吴恩达机器学习、机器学习实战、西瓜书、林轩田机器学习等书籍。。）、深度神经网络核心知识（本书灵魂所在，实践才是硬道理）、前沿发展（金字塔尖儿，可以细琢磨一下以便发论文）

重难点内容

矩阵对角化与svd分解 2. 最小二乘与pca

2.基本概念

线性代数主要研究的是以下几种对象：

标量(scalar)：标量就是单一的数字，比如单一的整数，实数，有理数等都是标量。
向量(vector)：可以看做是一组标量形成的一维数组，如由n个实数组成的向量：

$\boldsymbol{x}=\left[\begin{array}{c}{x_{1}} \\ {x_{2}} \\ {\vdots} \\ {x_{n}}\end{array}\right]$

矩阵(matrix): 矩阵是二维数组，所以每个元素需要行和列的指标来标记

$\left[\begin{array}{ll}{A_{1,1}} & {A_{1,2}} \\ {A_{2,1}} & {A_{2,2}}\end{array}\right]$

张量(tensor)：张量是多维数组，当它是零维时就是标量，一维时就是矢量，二维时就是矩阵，也可以大于二维。
行列式（determinant）：det(A)等于矩阵特征值的乘积，用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。

3.矩阵运算

转置(transpose):矩阵转置可以想成将矩阵按轴线翻转过来，矩阵A的转置常常用 $A^{T}$ 表示
矩阵乘法(matrix product):假如有两个形状分别为 m x n 的矩阵A和 n x p 的矩阵B，注意A的列数和B的行数要匹配，矩阵乘积C=AB就是将A的每一行与对应的B的每一列相乘求和，并将所得的数存储在C的对应元素中：

$C_{i, j}=\sum_{k} A_{i, k} B_{k, j}$

由图形表示即是
在这里插入图片描述
矩阵与向量的乘积可以看做是矩阵与矩阵乘积的一种特殊情况。我们常用的n元一次线性方程组也可以表示为矩阵与向量的乘积形式

$A x = b$

逆矩阵(inverse matrix):首先我们需要定义单位矩阵(Identity Matrix) $I_{n}$ , $I_{n}$ 是一个n x n的方形矩阵，并且主对角线均为1，其他元素均为零，单位矩阵与任意向量相乘还得到该向量本身。矩阵A的逆矩阵常用 $A^{-1}$ 表示，其性质是 $A^{-1} A=I_{n}$ .即矩阵（方阵）的逆满足如下条件： $A^{-1} A=A A^{-1}=I_{n}$

假如一个矩阵存在逆矩阵，那么相应的线性方程组就可以转化为求逆矩阵与向量的矩阵乘积的问题：

$\begin{aligned} A x &=b \\ A^{-1} A x &=A^{-1} b \\ I_{n} x &=A^{-1} b \end{aligned}$

迹(trace)：迹定义为求主对角线元素的和 $\operatorname{Tr}(\boldsymbol{A})=\sum_{i} \boldsymbol{A}_{i, i}$
范数(norm):范数用来度量向量的大小。比如 $L^{p}$ norm定义为 $\|\boldsymbol{x}\|_{p}=\left(\sum_{i}\left|x_{i}\right|^{p}\right)^{\frac{1}{p}}$ (其中p是实数且p≥1)

常用的有 $L^{2}$ norm，代表了从原点到向量所表示的点的欧几里得空间距离。为了方便计算，我们也常常用 $L^{2}$ norm的平方，可计算为向量转置与自身的乘积 $x^{T} x$ 。机器学习算法中还比较常用的是 $L^{1}$ norm,即

$\|x\|_{1}=\sum_{i}\left|x_{i}\right|$
$L^{1}$ norm常常用来做机器学习模型的regularization(防止过拟合，以后章节会细讲），因为机器学习模型中我们常常想减小模型非零变量的数量以防止过拟合，也就是很多变量变为零，而将大部分权重放在某些有意义的变量上，这时候由于 $L^{2}$ 在变量较小接近零时跟随的改变较小，会出现很多趋近于零而不为零的变量，而 $L^{1}$ norm由于跟随于每个变量的变动是恒定的，使得零元素和非零但趋近于零的变量仍对该项有显著贡献，在目标是减小这一项的过程中会使很多变量归零（注意是归零而不仅仅是较小接近零），从而更有效的减少过拟合。

实用性质：

A(B+C)=AB+AC（分配律）

A(BC)=(AB)C（结合律）

AB≠BA（一般不满足交换律）

(AB)=BA

$B)^{\top}=B^{\top} A^{\top}$ （转置）

$x^{\top} y=\left(x^{\top} y\right)^{\top}=y^{\top} x$ （转置）其中：x,y都是列向量， $x^{\top}$ 是行向量， $x^{T} y$ 的结果是一个标量

4.特殊矩阵

对称矩阵(symmetric matrix)：对称矩阵的转置等于它自身。 $A=A^{\top}$
对角矩阵(diagonal matrix)：除主对角线的元素均为零。
单位向量(unit vector): 单位向量的 $L^{2}$ norm等于1。
正交矩阵(orthogonal matrix): 正交矩阵的转置与它自身的矩阵乘积是单位矩阵： $A^{\top} A=A A^{\top}=I$
单位矩阵(identity matrix)：任意向量或矩阵和单位矩阵相乘，都不会改变，记为I。

所有沿主对角线的元素都是1，而所有其他位置的元素都是0。

5.特征分解

正如我们可以把正整数表示为更基本的质数的乘积的形式，特征分解(eigendecomposition)也是将矩阵分解为组成它的特征向量(eigenvector)和特征值(eigenvalue)的形式。

特征向量定义如下：如果正方形矩阵A和向量v的乘积可以表示为一个标量 $\lambda$ 与向量v的乘积，那么v就是A的一个特征向量， $\lambda$ 就是A的一个特征值： $v=\lambda v$

可以看出，如果v就是A的一个特征向量，那么任意一个标量与v的乘积仍是A的一个特征向量，而且他们的特征值相同，所以通常我们只关心范数为1的特征向量。假设矩阵A是一个m×m的实对称矩阵（即 $A=A^{T}$ ），那么它可以被分解成如下的形式

$\Sigma Q^{T}=Q\left[\begin{array}{cccc}{\lambda_{1}} & {\cdots} & {\cdots} & {\cdots} \\ {\cdots} & {\lambda_{2}} & {\cdots} & {\cdots} \\ {\cdots} & {\cdots} & {\ddots} & {\cdots} \\ {\cdots} & {\cdots} & {\cdots} & {\lambda_{m}}\end{array}\right] Q^{T}$

其中Q为标准正交阵，即有 $Q Q^{T}=I$ ， $\Sigma$ 为对角矩阵，且上面的矩阵的维度均为mxm。 $\lambda_{i}$ 称为特征值， $q_{i}$ 是Q（特征矩阵）中的列向量，称为特征向量。 $q_{i}=\lambda_{i} q_{i}, \quad q_{i}^{T} q_{j}=1(i \neq j)$

我们可以想象矩阵A实际上是将空间在其特征向量的方向上各自拉伸了对应的特征值的尺度。

将矩阵分解为特征值 λ 和特征向量的表示形式。（一般只有方阵才有）

可以看作在二维平面上画出特征向量后，乘上矩阵A表示这个向量被拉伸了 λ 倍，如下图：
在这里插入图片描述
当然，不是所有矩阵都可以做特征分解，比较幸运的是，通常我们可能要解决的只是某类特定形式的矩阵问题，例如实对称矩阵总可以表示成特征分解的形式。

λ > 0：正定矩阵（positive definite）

λ ≥ 0：半正定矩阵（positive semidefinite）

λ < 0：负定矩阵（negative definite）

6.矩阵的对角化

矩阵B（方阵）的对角化 $P^{-1} A P=B$ ，其中A为对角矩阵，P为单位正交矩阵（即 $P^{T} P=P P^{T}=I$ => $P^{T}=P^{-1}$ 所以: $B=P^{T} A P$ ）。B首先要是方阵，其次它可对角化

一般的矩阵不一定能对角化，但是对称矩阵一定可以对角化（特别是对称正定矩阵(任何一个向量x $x^{T}Ax>0 $) ，得到的$ \lambda_{1}$都是正数）。

设 $P^{T}=\left(u_{1}, u_{2}, \cdots, u_{n}\right), u_{i} \in \mathbb{R}^{n}$ （其为一个n*n的矩阵，每个ui都为n乘以 1的列向量）

$A=\left(\begin{array}{cccc}{\lambda_{1}} & {} & {} & {} \\ {} & {\lambda_{2}} & {} & {} \\ {} & {} & {\ddots} & {} \\ {} & {} & {} & {\lambda_{n}}\end{array}\right)$

则 $B=\left(u_{1}, u_{2}, \cdots, u_{n}\right)\left(\begin{array}{ccc}{\lambda_{1}} & {} & {} \\ {} & {\ddots} & {} \\ {} & {} & {\lambda_{n}}\end{array}\right)\left(\begin{array}{c}{u_{1}^{T}} \\ {\vdots} \\ {u_{n}^{T}}\end{array}\right)$

最低0.47元/天解锁文章

qy-zhang

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习 DEEP LEARNING 1-2章

深度学习 DEEP LEARNING 1-2章神书简介《deep Learning》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰写，其被奉为AI界圣经。因其封面为AI生成的鲜花图像，故其“花书”之名广为传播。其大致可以分为三大部分：各种基础（属地基型，学此部分的同时可佐以线性代数、李航统计学方法、吴恩达机器学习、机器学习实战...
复制链接

扫一扫

专栏目录