人工智能必备数学基础


高数、线代、概率论、统计分析

函数

函数的定义

几种函数

几种特性

奇偶、周期、单调

数列

极限

函数的连续性

函数的间断点

导数

偏导数

方向导数

梯度

梯度为等高线上的法向量,朝更高方向发展。

微积分

以曲代直

泰勒公式

以直代曲
一点一世界

麦克劳林公式

SVD矩阵分解

矩阵x向量=向量【对向量作线性变换】,线性变换有拉伸、旋转。通过表达式: A x = λ x Ax=\lambda x Ax=λx再利用: ( A − λ E ) x = 0 (A-\lambda E)x=0 AλEx=0可以得到特征值 λ \lambda λ【特征值矩阵 ⋀ \bigwedge 】,特征向量P。然后可以将矩阵A表示为 A = P ⋀ P − 1 A=P \bigwedge P^{-1} A=PP1
如果将特征值矩阵 ⋀ \bigwedge 里面的特征值 λ \lambda λ由大到小排列,取前k个特征值 λ \lambda λ,这些特征值里面保留了矩阵A最明显的特征,这样这个表达式的应用场景为:1、降维。2、压缩。
为了解决实际生活中的矩阵压缩问题【矩阵特征提取问题】,我们常采用SVD矩阵分解,因为SVD矩阵分解的的特征向量P不是方阵,而是MXN的矩阵。

似然函数

与概率函数作对比。
概率是给定参数 θ \theta θ时样本X=x的可能性,未发生,问样本X的概率;似然是给定样本X=x时参数 θ \theta θ的可能性,已发生,问参数是谁。
用实际例子举例,打NBA时,概率:乔丹投绝杀球的概率,参数 θ \theta θ=乔丹;似然:投了绝杀球后,是谁绝杀的?。

后验概率估计

后验概率估计=似然x先验

核函数

背景:如果我们能了解到关于某个物体的多维度信息(多角度信息:比如:年龄、性别、学历等等),那么我们可以对这个物体有个全面的了解。
核函数:在矩阵上面是求内积。
问题:多维的内积,往往意味着强大的计算量,解决:科学家发现,用低维内积的n次方,可以得到多维相同的结果。因此,我们利用低维得到的数字结果直接映射到高维。
高斯核函数:

  • 公式: K ( x , y ) = e ∣ ∣ X − Y ∣ ∣ 2 2 σ 2 K(x,y) = e^{\frac{||X-Y||^2}{2\sigma^2}} K(x,y)=e2σ2XY2
  • 公式的直观理解:如果x与y相近,则结果为0,相当于一个点,如果x与y遥远,则结果为1。
  • 该公式的好处:将低维转到高维,从而提取到深层次的特征。
  • 参数 σ \sigma σ的对公式的影响: σ \sigma σ越小,棱角越鲜明,特征越明显,切分的越厉害,越容易过拟合。

信息熵

含义:物体内部的混乱程度(一件事发生的不确定性)
H ( X ) = − ∑ x ∈ X P ( x ) l o g P ( x ) H(X)=-\sum_{x \in X}P(x)logP(x) H(X)=xXP(x)logP(x)
对公式的直观理解:P(x) ∈ \in (0,1),logP(x) ∈ ( − ∞ , 0 ) \in(-\infty,0) (,0),logP(x)的图像:先抖后平缓。
注意:概率越小,熵值越大,越混乱。
因此,熵可以作为衡量指标。

激活函数

sigmoid

优点:将连续值压缩到0-1区间上。
缺点:1、杀死梯度;2、图像非原点中心对称。
为何会杀死梯度:从图像中可以看出 + ∞ , − ∞ +\infty,-\infty +处导函数接近水平,从公式推导可以理解到sigmoid的导函数的取值范围在0-0.25之间,且趋近无穷时,该值趋近0。
缺点:3、输出值全为整数会导致梯度全为正或者全为负。4、优化更新会产生阶梯式情况(比如两点之间,最短距离为直线,但是该情况中为楼梯)。

tanh

优点:原点中心对称;输出在-1到1之间。
缺点:梯度消失现象依然存在,上同。

relu

优点:解决梯度消失现象,计算速度更快。
缺点:会杀死一部分神经元,梯度为0,神经元此时不会训练,产生稀疏性,因为x<0时函数值均为0。

Leaky ReLU

优点:解决relu会杀死一部分神经元的情况。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值