1 高等数学
内容大部分参考自https://blog.csdn.net/v_JULY_v/article/details/8308762
1.1 微积分
微积分是概数统计基础,概数统计则是DM&ML之必修课。
1.1.1 极限
极限分为数列的极限和函数的极限。
- 数列的极限
- 函数的极限
极限和极值的区别:
可见函数的每个点上都可能有极限,但是一般而言极值和最值在某个区间(全局)上才存在一个,区别还是比较大的。
1.1.2 导数
导数(Derivative),也叫导函数值。又名微商,是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作 f ′ ( x ) f^{'}(x) f′(x)或 d y d x \frac{dy}{dx} dxdy。
导数是函数的局部性质。一个函数在某一点的导数描述了这个函数在这一点附近的变化率。如果函数的自变量和取值都是实数的话,函数在某一点的导数就是该函数所代表的曲线在这一点上的切线斜率。导数的本质是通过极限的概念对函数进行局部的线性逼近。例如在运动学中,物体的位移对于时间的导数就是物体的瞬时速度。
导数指的是一个点,导函数指的是连续的导数点构成的函数。
- 常见函数求导:
- 复合函数求导:
- 链式法则
- 一阶导数求增减,二阶导数求凹凸,三阶导数求偏度
1.1.3 微分
微分和导数在某种意义上是等价的,但是微分通常更适合用来做高阶替代,比如说泰勒展开。
1.1.4 积分
-
不定积分
一个函数的不定积分,也称为原函数或者反导数:
-
定积分
给定一个正实值的函数 f ( x ) f(x) f(x),在一个实数区间 [ a , b ] [a,b] [a,b]上的定积分:
定积分和不定积分的区别在于不给定区间。即,不定积分的定义域是整个定义域,而定积分是部分区间。
- 积分中值定理:假设函数 f ( x ) f(x) f(x)在闭区间 [ a , b ] [a,b] [a,b]上连续,则在积分区间至少存在一个点使得下式成立
- 牛顿-莱布尼茨公式
这个公式打通了原函数与定积分之间的联系。这是一个非常有效的降维手段。
可参考微积分到底是什么?
1.2 泰勒公式
泰勒公式可以用若干项连加式来表示一个函数,这些相加的项由函数在某一点的导数求得。
在神经网络中,我们用一个高阶多项式来拟合我们的任务,如果想要拟合成功,就要满足泰勒公式的需求,那么就要保证两点:
- 网络的可导级数越高越好,这与网络的非线性能力以及深度有关,激活函数的设计(从这点考虑,sigmoid比relu要好)。
- 训练时,学习率不宜设得过大,保证梯度更新时每一项系数符合泰勒展开。
1.3 偏导数
对于二元函数z = f(x,y) 如果只有自变量x 变化,而自变量y固定 这时它就是x的一元函数,这函数对x的导数,就称为二元函数z = f(x,y)对于x的偏导数。
- 从求偏导可以引申出在手写BP代码时的一个小细节,梯度校验。这里的核心思想即对某个参数求偏导等同于求整层的导数。
具体可参考梯度校验
- 老师上课时说过,一个模型足够鲁棒的话,则意味着它对于不同的输入敏感程度相同,那么是否和这里一样?对模型的每个参数都进行这样的微调,如果网络的输出始终保持不大幅度的变化,意味着网络也是足够稳定的?
2 概率论
2.1 基本概念
2.1.1 样本空间
随机试验 E E E的所有结果构成的集合称为 E E E的样本空间,记为 S = E S={E} S=E,称 S S S中的元素 e e e为样本点,一个元素的单点集称为基本事件。
2.1.2 条件概率,联合概率,边缘概率
-
条件概率就是事件A在另外一个事件B已经发生条件下的发生概率,条件概率表示为 P ( A ∣ B ) P(A|B) P(A∣B),读作"在B条件下A的概率"
-
联合概率表示两个事件同时成立的概率,记作 P ( A , B ) P(A,B) P(A,B)或者 P ( A B ) P(AB) P(AB),需要注意的是所有条件需要同时成立。
-
边缘概率,与联合概率对应,仅与单个随机变量有关。 P ( X = a ) P(X=a) P(X=a)或 P ( Y = B ) P(Y=B) P(Y=B)
我们可以得到后验概率:
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)
同时,
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A)=P(A|B)\frac{P(B)}{P(A)} P(B∣A)=P(A∣B)P(A)P(B)
2.2 全概率公式和贝叶斯公式
2.2.1 全概率公式
假设 B n : n = 1 , 2 , 3... {B_n:n=1,2,3...} Bn:n=1,2,3...是一个概率空间的有限或者可数无限的分割,且每个集合 B n B_n Bn是一个可测集合,则对任意事件A有全概率公式:
P ( A ) = ∑ n P ( A B n ) P(A) = \sum_nP(AB_n) P(A)=n∑