写这篇文章的主要目的就是记录一下自己在深度学习的旅程中所需要的数学知识,通过这样的方式来记录一下我的学习生活,同时也希望自己的这份博客能够帮助初步进入机器学习领域的同学。
向量
向量点积:向量点积也被称之为数量积,是向量与向量之间相乘的结果,其结果是一个标量
a
⃗
⋅
b
⃗
=
∣
a
∣
∣
b
∣
c
o
s
θ
\vec{a} \cdot \vec{b} = |a||b|cos\theta
a⋅b=∣a∣∣b∣cosθ,在几何意义上是向量a在向量b上面的投影。
向量积:指的是向量与向量之间的乘积,不过其结果还是一个向量,其也被称之为外积或者是叉积。在几何意义上而言,主要在三维空间及以下空间中有意义,在二维空间中其向量积的模代表是两个向量所包围的平行四边形的面积,
a
⃗
⨂
b
⃗
=
∣
a
∣
∗
∣
b
∣
∗
s
i
n
θ
\vec{a}\bigotimes \vec{b} = |a|*|b|*sin\theta
a⨂b=∣a∣∗∣b∣∗sinθ,在三维的空间里,向量的向量积代表的是两个向量所构成的平面的法向量。
向量之间的线性相关性:对于一组向量
a
1
⃗
a
2
⃗
a
3
⃗
.
.
.
.
.
.
a
n
⃗
\vec{a_1} \vec{a_2} \vec{a_3} ......\vec{a_n}
a1a2a3......an,如果存在一组非全为0的参数使得
∑
i
=
1
n
a
i
⃗
∗
p
i
=
0
\sum_{i=1}^{n}\vec{a_i}*p_i = 0
∑i=1nai∗pi=0,就可以说,这一组向量是线性相关的。线性相关性杂深度神经网络中有着很重要的作用。
向量夹角与余弦相似性:通常
cos
θ
\cos\theta
cosθ的值的大小代表两个向量之间的相似性,也称之为余弦相似性。
接下来,我用一个简单的例子来解释说明一下这些数学基础知识的基本使用:
这里我们有两句中文:
“深度神经网络是一种深度学习方法”
“神经网络是一种学习方法”
我们的目标是判断这两句话的相似度:
STEP1:分词处理 {深度,神经网络,是一种,深度,学习方法} {神经网络,是一种,学习方法}
STEP2:获得向量集[深度,神经网络,是一种,深度,学习方法]
STEP3:计算所对应的词频[2,1,1,1,1],[0,1,1,1,1]
STEP4:形成特征向量
a
⃗
=
[
2
,
1
,
1
,
1
,
1
]
b
⃗
=
[
0
,
1
,
1
,
1
,
1
]
\vec{a} = [2,1,1,1,1] \vec{b} = [0,1,1,1,1]
a=[2,1,1,1,1]b=[0,1,1,1,1]
STEP5:计算二者之间的余弦相似度:
c
o
s
θ
=
(
a
⃗
∗
b
⃗
)
/
∣
a
⃗
∣
∗
∣
b
⃗
∣
cos\theta = (\vec{a}*\vec{b})/|\vec{a}|*|\vec{b}|
cosθ=(a∗b)/∣a∣∗∣b∣ = 0.7,这样就可以简单认为这两句话之间的相似度为百分之70
矩阵
矩阵相乘
导数
距离
欧几里得距离:
曼哈顿距离:
切比雪夫距离:
闵氏距离:
海明距离:
数值归一化
以10为底的对数函数:
min-max归一化:
z-score归一化:
概率
概率分布
二项分布:
超几何分布:
泊松分布:
指数分布:
正态分布:
参数估计
条件概率:
P
(
B
∣
A
)
=
P
(
)
P(B|A) = P()
P(B∣A)=P()
先验概率:
联合概率:
贝叶斯估计:
最大似然估计:
最大后验估计: