深度学习笔记2-数学基础

一、线性代数

向量

计算机编程中向量是一列有序的数字,分为行向量和列向量,深度学习中常说向量的向量一般指列向量,一个n维向量x可以表达为:

向量的转置:

向量的加法:

常数和向量的加法:

常数和向量的乘法:

矩阵

矩阵就是一个由数字或其它项组成的表格,一个m行n列矩阵可以表示为:

点乘

设n维向量a中的元素a1,a2......an,n维向量b中的元素b1,b2......bn,向量a与b的点乘(内积)是一个标量,

设已知两个m*n矩阵

矩阵的转置:

矩阵的加法:

矩阵的乘法:

向量和矩阵的乘法:

设A为两个m*p矩阵,B为p*n矩阵,则两个矩阵相乘为:

结果为一个m*n矩阵,其中第i行第i列(1<=i<=m,1<=j<=n)的元素为:

例子:

1. Row vector 和 column vector相乘

2. Square matrix 和 column vector 相乘

3. square matrix和square matrix相乘

范数

张量(tensor)

在某些情况下,我们会讨论坐标超过两维的数组,一般的,一个数组中的元素分布在若干维坐标的规则网格中,我们称之为张量。我们使用字体 A 来表示张量“A"。
张量A中坐标为( i , j , k ) (i,j,k)(i,j,k) 的元素记作 A i , j , k A_{i,j,k}Ai,j,k​ .

特征向量和特征值

二 、高等数学

导数

设函数y=f(x)在点x0的某个邻域内有定义,当自变量x在x0处有增量Δx,(x0+Δx)也在该邻域内时,相应地函数取得增量Δy=f(x0+Δx)-f(x0);如果Δy与Δx之比当Δx→0时极限存在
,则称函数y=f(x)在点x0处可导,导数公式为:

导数运算法则

偏导数

定义:一个多变量的函数的偏导数是它关于其中一个变量的导数,而保持其他变量恒定(相对于全导数,在其中所有变量都允许变化)。

数学表示:函数关于变量x的偏导数写为。偏导数符号是圆体字母,区别于全导数符号的正体。由定义可得:

几何含义:偏导数f'x(x0,y0)表示固定面上一点对x轴的切线斜率;偏导数f'y(x0,y0)表示固定面上一点对y轴的切线斜率。
 

二阶导数:

定义: 二阶导数,是原函数导数的导数,将原函数进行二次求导。

意义

     1、切线斜率变化的速度,表示的是一阶导数的变化率。
     2、在图形上,它主要表现函数的凹凸性。

驻点
       驻点(Stationary Point)又称为平稳点、稳定点或临界点(Critical Point)是函数的一阶导数为零,即在“这一点” 函数的输出值停止增加或减少,如y=x^2。

 拐点

      拐点,又称反曲点,在数学上指改变曲线向上或向下方向的点,直观地说拐点是使切线穿越曲线的点,是曲线凹凸发生改变的点。比如: y=x^3

泰勒展开式

梯度

常用初等函数

常函数(y=c)

幂函数(y=x^α)

指数函数

对数函数

三、概率论和数理统计

事件的关系与运算

 

概率的基本公式

 

事件的独立性

 

重要结论和公式

 

常见概率分布

离散概率分布函数

(1) 两点分布(伯努利分布)

一个非常简单的试验是只有两个可能结果的试验,比如正面或反面,成功或失败。为方便起见,记这两个可能的结果为0和1,如果随机变量X只取0和1两个值,并且相应的概率为:

(2) 二项分布

二项分布是指在只有两个结果的n次独立的伯努利试验中,所期望的结果出现次数的概率。举例说明一下

掷一枚硬币,出现正面和反面的概率各为0.5,那么掷1次,出现正面的概率肯定是0.5。掷2次、掷3次呢?

掷2次出现的结果有4个,正正、正反、反正、反反。因为p=0.5,所以每个结果出现的概率是0.5×0.5=0.25,那正面出现2次、1次、0次
的概率分别是0.25、0.5、0.25。

掷3次出现的结果有8个,正正正、正正反、正反正、正反反、反正正、反正反、反反正、反反反。每个结果出现的概率是0.5×0.5×0.5=0.
125,那正面出现3次、2次、1次、0次的概率分别是0.125、0.375、0.375、0.125。

统计学家们总结出了计算概率的一般公式

其中b表示二项分布的概率,n表示试验次数,x表示出现某个结果的次数,表示在n次试验中出现x次结果的可能的次数。如10次试验,出现0次正面的次数有1次
,出现1次正面的次数有10次,……,出现5次正面的次数有252次,等等。其计算也有一个通式:

也可以写成:

(3)泊松分布(Poisson分布)

泊松分布的概率函数为:

 

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。

在网上看到一个通俗易懂的例子,可以参考理解:https://blog.csdn.net/ccnt_2012/article/details/81114920

连续概率分布函数

(1) 均匀分布

均匀分布也叫矩形分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。

均匀分布的概率密度函数为:

(2) 指数分布

指数分布是描述泊松分布中事件发生时间间隔的概率分布。

指数分布有如下的适用条件:
1. x是两个事件发生之间的时间间隔,并且x>0;
2. 事件之间是相互独立的;
3. 事件发生的频率是稳定的;
4. 两个事件不能发生在同一瞬间。

指数分布的概率密度函数由λ和x(时间)构成:

(3)正态分布

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线

随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布

数学期望

数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。

 

 

 

参考:

https://www.jianshu.com/p/c7178bc93b40

https://zhuanlan.zhihu.com/p/36311622

https://www.cnblogs.com/jialin0421/p/8988824.html

https://blog.csdn.net/liming850628/article/details/78719776?utm_medium=distribute.pc_relevant.none-task-blog-title-3&spm=1001.2101.3001.4242

https://blog.csdn.net/flyfish1986/article/details/88774968

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值