第零章第1节——万丈高楼地下起

最新推荐文章于 2022-10-21 11:19:48 发布

dongyunchao123

最新推荐文章于 2022-10-21 11:19:48 发布

阅读量178

点赞数

分类专栏：深度学习文章标签：人工智能深度学习数学基础

本文链接：https://blog.csdn.net/dongyunchao123/article/details/96378911

版权

深度学习专栏收录该内容

34 篇文章 5 订阅

订阅专栏

0.1 数学基础

本章列出深度学习中常用的线性代数、微积分和概率论中常用到的数学基础，这些基本的数学基础构成当前人工智能算法大厦的基石。

0.1.1 线性代数

0.1.1.1 标量、向量、张量和矩阵

标量（scalar）：一个单独的数（整数或实数）。如x
向量（vector）：线性代数中的向量分为行向量和列向量，在此处无特殊说明时向量指的是列向量既用一列“[]”括起来的数。如向量克表示成

其中 $x_{1}$ , $x_{2}$ $\begin{matrix} ... \end{matrix}$ , $x_{n}$ 是向量的元素，若各元素均为实数，则将该n维向量记为 $\mathbf{x}\in \mathbb{R}^{n}$ 。

矩阵（matrix）：由m $\times$ n个数排成的m行n列的表，如一个m行n列矩阵X可表示成

其中 $x_{i,j}$ 是X矩阵的第行第列的元素（ $1\leq i\leq m$ , $1\leq j\leq n$ ）。我们将各元素均为实数的m行n列矩阵X记为 $X\in \mathbb{R}^{m\times n}$ ,，可以看出向量是特殊的矩阵。

张量（tensor）：在很多情况下，我们讨论的坐标超过二维，例如计算机视觉领域中图像的像素点值由RGB三个通道组成。一般的，一个数组中的元素分布在若干维坐标的规则网格中，我们称之为张量，用A表示张量“A”。张量A中坐标为（）的元素记为 $A_{i,j,k}$ 。

0.1.1.2 运算

內积（点乘）：设n为向量 $\mathbf{a}$ 中的元素为 $\mathbf{a}_{1}$ ,... $\mathbf{a}_{n}$ , 维向量b中的元素 $b_{1}$ ,..., $b_{n}$ 。向量a与b的內积是一个标量：

转置（transpose）：矩阵的转置是以对角线为轴的镜像。设m行n列矩阵如下：

矩阵转置后变成一个n行m列矩阵，它的每一行其实是原矩阵的每一列：

矩阵加法（同型）：设矩阵如下：

则矩阵和矩阵的加法是对应位置元素的和:

广播：在深度学习中，我们也使用一些不常规的运算，允许矩阵和向量相加产生另一个矩阵称之为广播。

$\mathbf{C} = \mathbf{A}+ \mathbf{b}$

其中 $C_{i,j} = A_{i,j} + b_{j}$ 。

两个矩阵按元素做乘法：我们使用符号 $\odot$ 表示两个矩阵按元素做乘法的运算

矩阵乘法：矩阵乘法和上述两个矩阵按元素做乘法不同。设A为行列的矩阵，B为行n列的矩阵，则 $\mathbf{\mathit{A}}\times \mathbf{\mathit{B}}$ ：

其结果为一个行列的矩阵，其中第行第列（ $1\leq i\leq m,1\leq j\leq n$ ）的元素为

$a_{i1}b_{1,j} + a_{i2}b_{2,j} + ... +a_{ip}b_{p,j}= \sum_{k=1}^{p}a_{ik}b_{kj}$

标量与矩阵的乘法：标量与矩阵 $\mathbf{\mathit{A}}$ 的乘法是给矩阵 $\mathbf{\mathit{A}}$ 逐元素乘以标量：

范数：一种衡量向量大小的函数。设维向量中的元素为 $x_{1}$ ,... $x_{n}$ 。向量的 $L_{p}$ 范数定义如下

$\left \| x \right \|_{p} = {\left ( \sum_{i} \left | x_{i} \right|^{p}\right )}\tfrac{1}{p}$

其中 $p\in \mathbb{R},p\geq 1$ 。范数（包括 $L_{p}$ 范数）是将向量映射到非负值的函数。直观来说，向量的范数衡量从原点到点 $\mathit{\mathbf{x}}$ 的距离。

当=1时，的 $L_{1}$ 范数是该向量元素绝对值之和：

$\left \|x \right \|_{1} = \sum_{i=1}^{n}\left | x_{i} \right |$

当=2时，的 $L_{2}$ 范数是该向量元素平方和的平方根， $L_{2}$ 范数成为欧几里得范数。它表示从原点出发到向量确定的点的欧几里得距离：

$\left \|x \right \|_{2} = \sqrt{\sum_{i=1}^{n}\left x_{i} ^{2}\right}$

$L_{2}$ 范数在机器学习中频繁出现，简化表示为 $\left \| x \right \|$ 。

Frobenius范数：衡量矩阵的大小，如下

$\left \| \mathbf{X} \right \|_{F} = \sqrt{\sum_{i=1}^{m}\sum_{j=1}^{n}x_{ij}^{2}}$

其中 $x_{ij}$ 为矩阵 $\mathit{\mathbf{X}}$ 在第行列的元素。

0.1.1.3 特征向量和特征值

方阵 $\textit{\mathbf{A}}$ 的特征向量是指与 $\textit{\mathbf{A}}$ 相乘后相当于对该向量进行缩放的非零向量：

$\textit{ \mathbf{A}}v = \lambda v$

其中标量 $\lambda$ 称为这个特征向量对应的特征值。

0.1.2 微分

0.1.2.1 导数和微分

假设函数： $\mathbb{R}\rightarrow \mathbb{R}$ 的输入和输出都是标量，则函数的倒函数为

$f^{'}(x)=\lim_{h\rightarrow 0}\frac{f(x + h)-f(x)}{h}$

假定该极限存在。给定 y= f(x) ,以下有关倒函数和微分的表达式等价：

$f^{'}(x) = y^{'}=\frac{d_{y}}{d_{x}}=\frac{d_{f}}{d_{x}}=\frac{d}{d_{x}}f(x)=Df(x)=D_{x}f(x)$

常见导数公式 DC=0 （为常数）、 $Dx^{n}=nx^{n-1}$ 、 $De^{x}=e^{x}$ 、 Dln(x)=1/x 等

如果函数f和g都可到，设C为常数，那么

如果 y=f(u) 和 u=g(x) 都是可导函数，根据链式法则

$\frac{d_{y}}{d_{x}}=\frac{d_{y}}{d_{u}}\frac{d_{u}}{d_{x}}$

0.1.2.2 泰勒展开

函数f的泰勒展开式是

$f(x)\sim \sum_{n=0}^{\infty }\frac{f^{(n)}(a)}{n!}(x-a)^{n}$

注意：此处不能写“=”

其中 $f^{(n)$ 为函数的阶导数，假设 $\varepsilon$ 是一个足够小的数，如果将上式中和分别替换成 $x+\varepsilon$ 和，可以得到

$f(x+\varepsilon )\approx f(x)+f^{'}(x)\varepsilon +\vartheta (\varepsilon ^{2})$

由于 $\varepsilon$ 足够小，上式可以简化成

$f(x+\varepsilon )\approx f(x)+f^{'}(x)\varepsilon$

0.1.2.3 偏导数

设为一个有个自变量的函数， $u=f(x_{1},x_{2},...,x_{n})$ ,它有关第个变量 $x_{i}$ 的偏导数为

$\frac{\partial u}{\partial x} = \lim_{h\rightarrow 0}\frac{f(x_{1},...,x_{i-1},x_{i+h},x_{i+1},...,x_{n})-f(x_{1},...,x_{i},...x_{n})}{h}$

以下有关偏导数的表达式等价：

$\frac{\partial u}{\partial x_{i}} =\frac{\partial f}{\partial x_{i}}=f_{x_{i}}=f_{i}=D_{i}f=D_{x_{i}}f$

0.1.2.4 梯度

回顾下方向导数的概念，方向导数：函数在给定点处沿特定方向的变化率称作沿的方向导数。

梯度是这样一个向量：它的方向与取得最大方向导数的方向一致，而它的模为方向导数的最大值。

定义：假设函数 $f(x_{1},x_{2},...,x_{n})$ ： $\mathbb{R}\rightarrow \mathbb{R}$ 的输入是一个维向量 $x=[x_{1},x_{2},...,x_{n}]^{\top }$ ，输出是标量。函数 f(x) 有关x的梯度是一个由个偏导数组成的向量：

$\bigtriangledown _{x}f(x)=\left [ \frac{\partial f(x)}{\partial x_{1}},\frac{\partial f(x)}{\partial x_{2}},...\frac{\partial f(x)}{\partial x_{n}} \right ]^{\top }$

为简洁起见，我们有时用 $\bigtriangledown f(x)$ 代替 $\bigtriangledown _{x}f(x)$ 。

常见的梯度运算：

0.1.2.5 海森（Hessian）矩阵

假设函数 $f(x_{1},x_{2},...,x_{n})$ ： $\mathbb{R}\rightarrow \mathbb{R}$ 的输入是一个维向量 $x=[x_{1},x_{2},...,x_{n}]^{\top }$ ，输出是标量函数所有的二阶偏导数都存在，

的海森矩阵H是一个n行n列的矩阵：

0.1.3 概率

0.1.3.1 条件概率

设 $\mathbf{\mathit{A}}$ 、 $\mathbf{\mathit{B}}$ 是两个事件，切 $P(\mathbf{\mathit{A}})> 0$ ,称

$P(\mathbf{\mathit{A}} \mid \mathbf{\mathit{B}}) = \frac{P(\mathbf{\mathit{AB}})}{P(\mathbf{\mathit{B}})}$

其中 $P(\mathbf{\mathit{AB}})$ 为事件 $\mathbf{\mathit{A}}$ 、 $\mathbf{\mathit{B}}$ 同时发生的概率。

由此可知，

$P(\mathbf{\mathit{AB}}) = P(\mathbf{\mathit{B}})P(\mathbf{\mathit{A}} \mid \mathbf{\mathit{B}}) = P(\mathbf{\mathit{A}})P(\mathbf{\mathit{B}} \mid \mathbf{\mathit{A}})$

事件 $\mathbf{\mathit{A}}$ 和事件 $\mathbf{\mathit{B}}$ 相互独立的条件为

$P(\mathbf{\mathit{AB}}) = P(\mathbf{\mathit{A}}) P(\mathbf{\mathit{B}})$

0.1.3.2 期望、方差

期望

离散型随机变量 $\mathit{X}$ 的期望(或平均值)为

$E(X) = {\sum_{}^{x}}xP(X=x)$

方差

$D(X) = Var(x)=E\left \{ [X-E(X)]^{2} \right \}$

函数 f(x) 关于某分布 P(x) 的期望指，当由产生，作用于时， f(x) 的平均值。

$E_{x\sim p}\left [ f(x) \right ] = {\sum_{}^{x}}P(x)f(x)$

函数 f(x) 关于某分布 P(x) 的方差

$Var(f(x))=E\left \{ [(f(x)-E[(f(x)]^{2} \right \}$

dongyunchao123

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第零章第1节——万丈高楼地下起

0.1 数学基础本章列出深度学习中常用的线性代数、微积分和概率论中常用到的数学基础，这些基本的数学基础构成当前人工智能算法大厦的基石。0.1.1 线性代数0.1.1.1 标量、向量、张量和矩阵标量（scalar）：一个单独的数（整数或实数）。如x 向量（vector）：线性代数中的向量分为行向量和列向量，在此处无特殊说明时向量指的是列向量既用一列“[]”括起来的数。如向量克表示成...
复制链接

扫一扫