深度学习数学基础

深度学习数学基础

为了帮助读者快速上手深度学习,这里整理其所需要的数学知识的最小集合。掌握这些知识,基本就可以看懂深度学习大部分知识点了。

一、高等数学:导数与偏导数

1. 导数(Derivative)定义

一个函数在x0点的导数表征的是函数在该点的变化率。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f'(x0)或df(x0)/dx。亦即,函数在x0点的导数就是函数在该点的变化率。

d y d x = lim ⁡ Δ x → 0 Δ y Δ x \frac{dy}{dx}=\lim_{\Delta x \rightarrow 0}{\frac{\Delta y}{\Delta x}} dxdy=Δx0limΔxΔy
或者:
f ′ ( x 0 ) = lim ⁡ Δ x → 0 f ( x 0 + Δ x ) − f ( x 0 ) Δ x f'(x_0)=\lim_{\Delta x \rightarrow 0}{\frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}} f(x0)=Δx0limΔxf(x0+Δx)f(x0)

常见函数的求导公式如下:

原函数导函数
y = c y = c y=c y ′ = 0 y' = 0 y=0
y = a x y = a^x y=ax y ′ = a x ∗ l n ( a ) y' = a^x * ln({a}) y=axln(a)
y = l o g a ( x ) y = log_a(x) y=loga(x) y ′ = 1 x ∗ l n ( a ) y' = \frac{1}{x * ln({a})} y=xln(a)1
y = l n ( x ) y = ln(x) y=ln(x) y ′ = 1 x y' = \frac{1}{x} y=x1
y = x n y = x^n y=xn y ′ = n ∗ x n − 1 y' = n * x^{n-1} y=nxn1
y = x 1 n y = x^{\frac{1}{n}} y=xn1 y ′ = 1 n x − n − 1 n y' = \frac{1}{n} x^{-\frac{n-1}{n}} y=n1xnn1
y = s i n ( x ) y = sin(x) y=sin(x) y ′ = c o s ( x ) y' = cos(x) y=cos(x)
y = c o s ( x ) y = cos(x) y=cos(x) y ′ = − s i n ( x ) y' = -sin(x) y=sin(x)
y = t a n ( x ) y = tan(x) y=tan(x) y ′ = 1 c o s 2 ( x ) = s e c 2 ( x ) y' = \frac{1}{cos^2(x)} = sec^2(x) y=cos2(x)1=sec2(x)
y = c o t ( x ) y = cot(x) y=cot(x) y ′ = − 1 s i n 2 ( x ) = − c s c 2 ( x ) y' = -\frac{1}{sin^2(x)} = - csc^2(x) y=sin2(x)1=csc2(x)
y = s h ( x ) = e x − e − x 2 y = sh(x) = \frac{e^x - e^{-x}}{2} y=sh(x)=2exex y ′ = c h ( x ) y' = ch(x) y=ch(x)
y = c h ( x ) = e x + e − x 2 y = ch(x) = \frac{e^x + e^{-x}}{2} y=ch(x)=2ex+ex y ′ = s h ( x ) y' = sh(x) y=sh(x)
y = t h ( x ) = e x − e − x e x + e − x y = th(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} y=th(x)=ex+exexex y ′ = 1 c h 2 ( x ) y' = \frac{1}{ch^2(x)} y=ch2(x)1
表1. 常见函数的导数公式

2. 偏导数

一个多变量的函数的偏导数,就是它关于其中一个变量的导数而保持其他变量恒定(相对于全导数,在其中所有变量都允许变化)。

偏导数的极限定义:
在这里插入图片描述
根据偏导数定义可知,表1的导数公式同样适用于偏导数。

3. 链式求导法则

链式法则是微积分中的求导法则,用于求一个复合函数的导数,是在微积分的求导运算中一种常用的方法。复合函数的导数将是构成复合这有限个函数在相应点的 导数的乘积,就像锁链一样一环套一环,故称链式法则。详见百度百科: 链式法则
简单讲,若:
z = g ( y ) z = g(y) z=g(y) y = g ( x ) y = g(x) y=g(x)
则有:
d z d x = d z d y ∗ d y d x \frac{dz}{dx} = \frac{dz}{dy} * \frac{dy}{dx} dxdz=dydzdxdy

二、矩阵

1. 矩阵的定义:

由 m × n 个数aij排成的m行n列的数表称为m行n列的矩阵,简称m × n矩阵。记作:
在这里插入图片描述
这m×n 个数称为矩阵A的元素,简称为元,数aij位于矩阵A的第i行第j列,称为矩阵A的(i,j)元,以数 aij为(i,j)元的矩阵可记为(aij)或(aij)m × n,m×n矩阵A也记作Amn。

2. 基本运算

2.1 加法

在这里插入图片描述
矩阵的加法满足下列运算律(A,B,C都是同型矩阵):
在这里插入图片描述
在这里插入图片描述
应该注意的是只有同型矩阵之间才可以进行加法

2.2 减法

示例:
在这里插入图片描述

2.3 数乘

示例:
在这里插入图片描述
矩阵的数乘满足以下运算律:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
矩阵的加减法和矩阵的数乘合称矩阵的线性运算

2.4 转置

把矩阵A的行和列互相交换所产生的矩阵称为A的转置矩阵( A T A^T AT),这一过程称为矩阵的转置:
在这里插入图片描述
矩阵的转置满足以下运算律:
在这里插入图片描述

3. 乘法

3.1 定义:

设A为 m × p m \times p m×p的矩阵,B为 p × n p \times n p×n的矩阵,那么称 m × n m \times n m×n的矩阵C为矩阵A与B的乘积,记作 C = A B C=AB C=AB,其中矩阵C中的第 i 行第 j 列元素可以表示为:
( A B ) i j = ∑ k = 1 p a i k b k j = a i 1 b 1 j + a i 2 b 2 j + . . . + a i p b p j (AB)_{ij}=\sum_{k=1}^p{a_{ik}}b_{kj} = a_{i1}b_{1j} + a_{i2}b_{2j} + ... + a_{ip}b_{pj} (AB)ij=k=1paikbkj=ai1b1j+ai2b2j+...+aipbpj
如下所示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.2 注意事项
  1. 当矩阵A的列数(column)等于矩阵B的行数(row)时,A与B可以相乘。
  2. 矩阵C的行数等于矩阵A的行数,C的列数等于B的列数。
  3. 乘积C的第m行第n列的元素等于矩阵A的第m行的元素与矩阵B的第n列对应元素乘积之和。
3.3 基本性质
  • 乘法结合律: (AB)C=A(BC). [3]
  • 乘法左分配律:(A+B)C=AC+BC [3]
  • 乘法右分配律:C(A+B)=CA+CB [3]
  • 对数乘的结合性k(AB)=(kA)B=A(kB).
  • 转置 (AB)T=BTAT.
  • 矩阵乘法在以下两种情况下满足交换律。
    • AA*=A*A,A和伴随矩阵相乘满足交换律。
    • AE=EA,A和单位矩阵或数量矩阵满足交换律。

三、向量

1. 向量的定义

在数学中,向量(也称为欧几里得向量、几何向量、矢量),指具有大小(magnitude)和方向的量。它可以形象化地表示为带箭头的线段。箭头所指:代表向量的方向;线段长度:代表向量的大小。与向量对应的量叫做数量(物理学中称标量),数量(或标量)只有大小,没有方向。

向量的代数表示

一般印刷用黑体的小写英文字母(a、b、c等)来表示,手写用在a、b、c等字母上加一箭头(→)表示,如 ,也可以用大写字母AB、CD上加一箭头(→)等表示。

  • 二维向量:v = (x1, x2)
  • 三维向量:v = (x1, x2, x3)
  • n维向量:v = (x1, x2, …, xn)
向量的几何表示

向量可以用有向线段来表示。有向线段的长度表示向量的大小,向量的大小,也就是向量的长度。长度为0的向量叫做零向量,记作长度等于1个单位的向量,叫做单位向量。
在这里插入图片描述

向量的矩阵表示

向量也可以表示为矩阵形式:
在这里插入图片描述

2 向量的运算

2.2.1 向量的加法:

在这里插入图片描述
加法的几何意义:
在这里插入图片描述

2.2 向量的点积

点积在数学中,又称数量积(dot product; scalar product),是指接受在实数R上的两个向量并返回一个实数值标量的二元运算。它是欧几里得空间的标准内积。
点积有两种定义方式:代数方式和几何方式。

  • 代数定义:两个n维向量a和b的点积定义为:
    在这里插入图片描述
    a ⋅ b = ∑ i = 1 n a i b i = a 1 b 1 + a 2 b 2 + . . . + a n b n a \cdot b = \sum_{i=1}^{n}{a_ib_i} = a_1b_1 + a_2b_2 + ... + a_nb_n ab=i=1naibi=a1b1+a2b2+...+anbn

  • 几何定义:设二维空间内有两个向量 a ⃗ \vec{a} a b ⃗ \vec{b} b ,和表示向量a和b的大小,它们的夹角为 θ \theta θ,则内积定义为以下实数:

a ⃗ ⋅ b ⃗ = ∣ a ∣ ∣ b ∣ c o s θ \vec{a} \cdot \vec{b} = |a||b|cos\theta a b =abcosθ

3. 向量的距离

向量的距离通常有两种度量方式:欧式距离 和 向量夹角。机器学习中比较常用的是利用向量夹角度量两个向量的距离(相似性)

3.1 欧式距离:

欧式距离,即向量作为两个点的空间直线距离。
若:
a ⃗ = ( a 1 , a 2 , a 3 ) \vec{a} = (a_1,a_2,a_3) a =(a1,a2,a3) b ⃗ = ( b 1 , b 2 , b 3 ) \vec{b} = (b_1,b_2,b_3) b =(b1,b2,b3)
则欧式距离计算公式为:
∣ a ⃗ − b ⃗ ∣ = ( a 1 − b 1 ) 2 + ( a 2 − b 2 ) + ( a 3 − b 3 ) |\vec{a} - \vec{b}| = \sqrt{(a_1 - b_1)^2+(a_2 - b_2)+(a_3 - b_3)} a b =(a1b1)2+(a2b2)+(a3b3)

3.2 向量夹角:

若:
a ⃗ = ( a 1 , a 2 , a 3 ) \vec{a} = (a_1,a_2,a_3) a =(a1,a2,a3) b ⃗ = ( b 1 , b 2 , b 3 ) \vec{b} = (b_1,b_2,b_3) b =(b1,b2,b3)
则夹角计算公式为:
c o s < a ⃗ , b ⃗ > = a ⃗ ⋅ ⃗ b ∣ a ⃗ ∣ ∣ b ⃗ ∣ = a 1 b 1 + a 2 b 2 + a 3 b 3 a 1 2 + a 2 2 + a 3 2 b 1 2 + b 2 2 + b 3 2 cos<\vec{a},\vec{b}> = \frac{\vec{a} \cdot \vec{}b}{|\vec{a}||\vec{b}|} = \frac{a_1b_1 + a_2b_2 + a_3b_3}{\sqrt{a_1^2+a_2^2+a_3^2}\sqrt{b_1^2+b_2^2+b_3^2}} cos<a ,b >=a b a b=a12+a22+a32 b12+b22+b32 a1b1+a2b2+a3b3

四、概率论与数理统计

1. 概率论基本概念

随机实验(E)

  • (1)可以在相同的条件下重复地进行
  • (2)每次实验的可能结果不止一个,并且事先明确知道实验的所有可能结果
  • (3)每次试验将出现哪一个结果无法预知
    例子:抛一枚硬币,观察正面,反面出现的情况

样本空间 (Ω)
随机试验所有可能的结果组成的集合

  • 样本点
    样本空间的元素,即每个可能的结果

  • 随机事件
    随机试验E的样本空间S的子集称为随机事件

  • 基本事件
    样本空间的单个元素,一个可能结果构成的集合

  • 必然事件(全集)、不可能事件(空集)

事件的关系与事件的运算 (类似于集合运算)
包含关系、和(并)并事件、积(交)事件、差事件、互不相容(互斥)、逆事件(对立事件)
在这里插入图片描述
在这里插入图片描述

2. 运算规律

在这里插入图片描述

  • 常用结论:
    在这里插入图片描述

3. 重要公式及结论

  • 条件概率
    条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B的条件下A的概率”:
    P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(AB)=P(B)P(AB)

  • 贝叶斯公式:
    P ( A ∣ B ) = P ( B ∣ A ) ∗ P ( A ) / P ( B ) P(A|B)=P(B|A)*P(A)/P(B) P(AB)=P(BA)P(A)/P(B)
    在这里插入图片描述

  • 全概率公式
    P ( A ) = ∑ i = 1 n P ( B i ) P ( A ∣ B i ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + . . . + P ( A ∣ B n ) P ( B n ) P(A) = \sum_{i=1}^{n}{P(B_i)P(A|B_i)} = P(A|B_1)P(B_1) + P(A|B_2)P(B_2) + ... + P(A|B_n)P(B_n) P(A)=i=1nP(Bi)P(ABi)=P(AB1)P(B1)+P(AB2)P(B2)+...+P(ABn)P(Bn)

4. 随机变量的数字特征

  • 数学期望
    P X = x i = p i P{X=x_i} = p_i PX=xi=pi E ( X ) = ∑ i x i p i E(X) = \sum_i{x_ip_i} E(X)=ixipi
  • 方差
    D ( X ) = E [ X − E ( X ) ] 2 = E ( X 2 ) − [ E ( X ) ] 2 D(X)=E[X-E(X)]^2=E(X^2)-[E(X)]^2 D(X)=E[XE(X)]2=E(X2)[E(X)]2
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值