深度学习数学基础

最新推荐文章于 2024-03-17 16:16:49 发布

编程密码

最新推荐文章于 2024-03-17 16:16:49 发布

阅读量622

点赞数

分类专栏：机器学习文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_41798058/article/details/114486545

版权

机器学习专栏收录该内容

3 篇文章 2 订阅

订阅专栏

深度学习数学基础

为了帮助读者快速上手深度学习，这里整理其所需要的数学知识的最小集合。掌握这些知识，基本就可以看懂深度学习大部分知识点了。

一、高等数学：导数与偏导数

1. 导数（Derivative）定义

一个函数在x0点的导数表征的是函数在该点的变化率。当函数y=f（x）的自变量x在一点x0上产生一个增量Δx时，函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在，a即为在x0处的导数，记作f'（x0）或df（x0）/dx。亦即，函数在x0点的导数就是函数在该点的变化率。

$\frac{dy}{dx}=\lim_{\Delta x \rightarrow 0}{\frac{\Delta y}{\Delta x}}$
或者：
$f'(x_0)=\lim_{\Delta x \rightarrow 0}{\frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}}$

常见函数的求导公式如下：

原函数	导函数
$y = c$	$y^{'} = 0$
$y = a^x$	$y' = a^x * ln({a})$
$y = log_a(x)$	$\frac{1}{x * ln({a})}$
$y = l n (x)$	$\frac{1}{x}$
$y = x^n$	$y' = n * x^{n-1}$
$x^{\frac{1}{n}}$	$\frac{1}{n} x^{-\frac{n-1}{n}}$
$y = s i n (x)$	$y^{'} = c o s (x)$
$y = c o s (x)$	$y^{'} = - s i n (x)$
$y = t a n (x)$	$\frac{1}{cos^2(x)} = sec^2(x)$
$y = c o t (x)$	$-\frac{1}{sin^2(x)} = - csc^2(x)$
$\frac{e^x - e^{-x}}{2}$	$y^{'} = c h (x)$
$\frac{e^x + e^{-x}}{2}$	$y^{'} = s h (x)$
$\frac{e^x - e^{-x}}{e^x + e^{-x}}$	$\frac{1}{ch^2(x)}$

表1. 常见函数的导数公式

2. 偏导数

一个多变量的函数的偏导数，就是它关于其中一个变量的导数而保持其他变量恒定（相对于全导数，在其中所有变量都允许变化）。

偏导数的极限定义：
在这里插入图片描述
根据偏导数定义可知，表1的导数公式同样适用于偏导数。

3. 链式求导法则

链式法则是微积分中的求导法则，用于求一个复合函数的导数，是在微积分的求导运算中一种常用的方法。复合函数的导数将是构成复合这有限个函数在相应点的导数的乘积，就像锁链一样一环套一环，故称链式法则。详见百度百科：链式法则
简单讲，若：
$z = g (y)$ $y = g (x)$
则有：
$\frac{dz}{dx} = \frac{dz}{dy} * \frac{dy}{dx}$

二、矩阵

1. 矩阵的定义：

由 m × n 个数aij排成的m行n列的数表称为m行n列的矩阵，简称m × n矩阵。记作：
在这里插入图片描述
这m×n 个数称为矩阵A的元素，简称为元，数aij位于矩阵A的第i行第j列，称为矩阵A的(i,j)元，以数 aij为(i,j)元的矩阵可记为(aij)或(aij)m × n，m×n矩阵A也记作Amn。

2. 基本运算

2.1 加法

在这里插入图片描述
矩阵的加法满足下列运算律(A，B，C都是同型矩阵)：

应该注意的是只有同型矩阵之间才可以进行加法

2.2 减法

示例：
在这里插入图片描述

2.3 数乘

示例：
在这里插入图片描述
矩阵的数乘满足以下运算律：

矩阵的加减法和矩阵的数乘合称矩阵的线性运算

2.4 转置

把矩阵A的行和列互相交换所产生的矩阵称为A的转置矩阵（ $A^T$ ），这一过程称为矩阵的转置：
在这里插入图片描述
矩阵的转置满足以下运算律：

3. 乘法

3.1 定义：

设A为 $\times p$ 的矩阵，B为 $\times n$ 的矩阵，那么称 $\times n$ 的矩阵C为矩阵A与B的乘积，记作 $C = A B$ ，其中矩阵C中的第 i 行第 j 列元素可以表示为：
$(AB)_{ij}=\sum_{k=1}^p{a_{ik}}b_{kj} = a_{i1}b_{1j} + a_{i2}b_{2j} + ... + a_{ip}b_{pj}$
如下所示：
在这里插入图片描述

3.2 注意事项

当矩阵A的列数（column）等于矩阵B的行数（row）时，A与B可以相乘。
矩阵C的行数等于矩阵A的行数，C的列数等于B的列数。
乘积C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应元素乘积之和。

3.3 基本性质

乘法结合律： (AB)C=A(BC)． [3]
乘法左分配律：(A+B)C=AC+BC [3]
乘法右分配律：C(A+B)=CA+CB [3]
对数乘的结合性k(AB）=(kA)B=A(kB）．
转置 (AB)T=BTAT．
矩阵乘法在以下两种情况下满足交换律。
- AA*=A*A，A和伴随矩阵相乘满足交换律。
- AE=EA，A和单位矩阵或数量矩阵满足交换律。

三、向量

1. 向量的定义

在数学中，向量（也称为欧几里得向量、几何向量、矢量），指具有大小（magnitude）和方向的量。它可以形象化地表示为带箭头的线段。箭头所指：代表向量的方向；线段长度：代表向量的大小。与向量对应的量叫做数量（物理学中称标量），数量（或标量）只有大小，没有方向。

向量的代数表示

一般印刷用黑体的小写英文字母（a、b、c等）来表示，手写用在a、b、c等字母上加一箭头（→）表示，如，也可以用大写字母AB、CD上加一箭头（→）等表示。

二维向量：v = (x1, x2)
三维向量：v = (x1, x2, x3)
n维向量：v = (x1, x2, …, xn)

向量的几何表示

向量可以用有向线段来表示。有向线段的长度表示向量的大小，向量的大小，也就是向量的长度。长度为0的向量叫做零向量，记作长度等于1个单位的向量，叫做单位向量。
在这里插入图片描述

向量的矩阵表示

向量也可以表示为矩阵形式：
在这里插入图片描述

2 向量的运算

2.2.1 向量的加法：

在这里插入图片描述
加法的几何意义：

2.2 向量的点积

点积在数学中，又称数量积（dot product; scalar product），是指接受在实数R上的两个向量并返回一个实数值标量的二元运算。它是欧几里得空间的标准内积。
点积有两种定义方式：代数方式和几何方式。

代数定义：两个n维向量a和b的点积定义为：

$\cdot b = \sum_{i=1}^{n}{a_ib_i} = a_1b_1 + a_2b_2 + ... + a_nb_n$
几何定义：设二维空间内有两个向量 $\vec{a}$ 和 $\vec{b}$ ，和表示向量a和b的大小，它们的夹角为 $\theta$ ，则内积定义为以下实数：

$\vec{a} \cdot \vec{b} = |a||b|cos\theta$

3. 向量的距离

向量的距离通常有两种度量方式：欧式距离和向量夹角。机器学习中比较常用的是利用向量夹角度量两个向量的距离（相似性）

3.1 欧式距离：

欧式距离，即向量作为两个点的空间直线距离。
若：
$\vec{a} = (a_1,a_2,a_3)$ $\vec{b} = (b_1,b_2,b_3)$
则欧式距离计算公式为：
$|\vec{a} - \vec{b}| = \sqrt{(a_1 - b_1)^2+(a_2 - b_2)+(a_3 - b_3)}$

3.2 向量夹角：

若：
$\vec{a} = (a_1,a_2,a_3)$ $\vec{b} = (b_1,b_2,b_3)$
则夹角计算公式为：
$cos<\vec{a},\vec{b}> = \frac{\vec{a} \cdot \vec{}b}{|\vec{a}||\vec{b}|} = \frac{a_1b_1 + a_2b_2 + a_3b_3}{\sqrt{a_1^2+a_2^2+a_3^2}\sqrt{b_1^2+b_2^2+b_3^2}}$

四、概率论与数理统计

1. 概率论基本概念

随机实验（E）

（1）可以在相同的条件下重复地进行
（2）每次实验的可能结果不止一个，并且事先明确知道实验的所有可能结果
（3）每次试验将出现哪一个结果无法预知
例子：抛一枚硬币，观察正面，反面出现的情况

样本空间 (Ω)
随机试验所有可能的结果组成的集合

样本点
样本空间的元素，即每个可能的结果
随机事件
随机试验E的样本空间S的子集称为随机事件
基本事件
样本空间的单个元素，一个可能结果构成的集合
必然事件（全集）、不可能事件（空集）

事件的关系与事件的运算（类似于集合运算）
包含关系、和（并）并事件、积（交）事件、差事件、互不相容（互斥）、逆事件（对立事件）
在这里插入图片描述

2. 运算规律

在这里插入图片描述

常用结论：

3. 重要公式及结论

条件概率
条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为：P（A|B），读作“在B的条件下A的概率”：
$P(A|B)=\frac{P(AB)}{P(B)}$
贝叶斯公式：
$P (A ∣ B) = P (B ∣ A) * P (A) / P (B)$
全概率公式
$\sum_{i=1}^{n}{P(B_i)P(A|B_i)} = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... + P(A|B_n)P(B_n)$

4. 随机变量的数字特征

数学期望
$P{X=x_i} = p_i$ $\sum_i{x_ip_i}$
方差
$D(X)=E[X-E(X)]^2=E(X^2)-[E(X)]^2$

编程密码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习数学基础

这里写自定义目录标题深度学习数学基础一、高等数学：导数与偏导数1. 导数（Derivative）定义2. 偏导数3. 链式求导法则二、矩阵1. 矩阵的定义：2. 基本运算2.1 加法2.2 减法2.3 数乘2.4 转置3. 乘法3.1 定义：3.2 注意事项3.3 基本性质三、向量1. 向量的定义向量的代数表示向量的几何表示向量的矩阵表示2 向量的运算2.2.1 向量的加法：2.2 向量的点积3. 向量的距离3.1 欧式距离：3.2 向量夹角：四、概率论与数理统计1 概率论基本概念深度学习数学基础为了帮
复制链接

扫一扫