人工智能必备数学基础
高数、线代、概率论、统计分析
函数
函数的定义
几种函数
几种特性
奇偶、周期、单调
数列
极限
函数的连续性
函数的间断点
导数
偏导数
方向导数
梯度
梯度为等高线上的法向量,朝更高方向发展。
微积分
以曲代直
泰勒公式
以直代曲
一点一世界
麦克劳林公式
SVD矩阵分解
矩阵x向量=向量【对向量作线性变换】,线性变换有拉伸、旋转。通过表达式:
A
x
=
λ
x
Ax=\lambda x
Ax=λx再利用:
(
A
−
λ
E
)
x
=
0
(A-\lambda E)x=0
(A−λE)x=0可以得到特征值
λ
\lambda
λ【特征值矩阵
⋀
\bigwedge
⋀】,特征向量P。然后可以将矩阵A表示为
A
=
P
⋀
P
−
1
A=P \bigwedge P^{-1}
A=P⋀P−1
如果将特征值矩阵
⋀
\bigwedge
⋀里面的特征值
λ
\lambda
λ由大到小排列,取前k个特征值
λ
\lambda
λ,这些特征值里面保留了矩阵A最明显的特征,这样这个表达式的应用场景为:1、降维。2、压缩。
为了解决实际生活中的矩阵压缩问题【矩阵特征提取问题】,我们常采用SVD矩阵分解,因为SVD矩阵分解的的特征向量P不是方阵,而是MXN的矩阵。
似然函数
与概率函数作对比。
概率是给定参数
θ
\theta
θ时样本X=x的可能性,未发生,问样本X的概率;似然是给定样本X=x时参数
θ
\theta
θ的可能性,已发生,问参数是谁。
用实际例子举例,打NBA时,概率:乔丹投绝杀球的概率,参数
θ
\theta
θ=乔丹;似然:投了绝杀球后,是谁绝杀的?。
后验概率估计
后验概率估计=似然x先验
核函数
背景:如果我们能了解到关于某个物体的多维度信息(多角度信息:比如:年龄、性别、学历等等),那么我们可以对这个物体有个全面的了解。
核函数:在矩阵上面是求内积。
问题:多维的内积,往往意味着强大的计算量,解决:科学家发现,用低维内积的n次方,可以得到多维相同的结果。因此,我们利用低维得到的数字结果直接映射到高维。
高斯核函数:
- 公式: K ( x , y ) = e ∣ ∣ X − Y ∣ ∣ 2 2 σ 2 K(x,y) = e^{\frac{||X-Y||^2}{2\sigma^2}} K(x,y)=e2σ2∣∣X−Y∣∣2
- 公式的直观理解:如果x与y相近,则结果为0,相当于一个点,如果x与y遥远,则结果为1。
- 该公式的好处:将低维转到高维,从而提取到深层次的特征。
- 参数 σ \sigma σ的对公式的影响: σ \sigma σ越小,棱角越鲜明,特征越明显,切分的越厉害,越容易过拟合。
信息熵
含义:物体内部的混乱程度(一件事发生的不确定性)
H
(
X
)
=
−
∑
x
∈
X
P
(
x
)
l
o
g
P
(
x
)
H(X)=-\sum_{x \in X}P(x)logP(x)
H(X)=−x∈X∑P(x)logP(x)
对公式的直观理解:P(x)
∈
\in
∈(0,1),logP(x)
∈
(
−
∞
,
0
)
\in(-\infty,0)
∈(−∞,0),logP(x)的图像:先抖后平缓。
注意:概率越小,熵值越大,越混乱。
因此,熵可以作为衡量指标。
激活函数
sigmoid
优点:将连续值压缩到0-1区间上。
缺点:1、杀死梯度;2、图像非原点中心对称。
为何会杀死梯度:从图像中可以看出
+
∞
,
−
∞
+\infty,-\infty
+∞,−∞处导函数接近水平,从公式推导可以理解到sigmoid的导函数的取值范围在0-0.25之间,且趋近无穷时,该值趋近0。
缺点:3、输出值全为整数会导致梯度全为正或者全为负。4、优化更新会产生阶梯式情况(比如两点之间,最短距离为直线,但是该情况中为楼梯)。
tanh
优点:原点中心对称;输出在-1到1之间。
缺点:梯度消失现象依然存在,上同。
relu
优点:解决梯度消失现象,计算速度更快。
缺点:会杀死一部分神经元,梯度为0,神经元此时不会训练,产生稀疏性,因为x<0时函数值均为0。
Leaky ReLU
优点:解决relu会杀死一部分神经元的情况。