DataWhale十一月组队学习“水很深的深度学习”打卡Task01
ps:学习资料的Github地址:水很深的深度学习
DataWhale地址: 水很深的深度学习
文章目录
1 绪论与深度学习概述
人工智能、机器学习与深度学习
人工智能
分类:
- 弱人工智能:机器只是看起来智能,不能真正地进行推理和解决问题,无智能也无自主意识
- 强人工智能:有自主意识的,认为有可能制造出能真正地进行推理和解决问题的机器
- 超级人工智能:认为机器的智能能彻底超过人类
机器学习
定义:让计算机能像人一样具有学习和思考的能力的技术总称,简单来说就是从已有的大量数据学得某种规律,进而用该规律对预测未知的数据,再根据评估结果修正改进已有的规律。
分类:
- 有监督学习: 跟学师评,学生跟着老师给的标准学习什么是对错
聚类:朴素贝叶斯算法,SVM,K最临近算法
回归:决策树,线性回归,逻辑回归
- 无监督学习:自学标评,没有老师,学生自学,使用一些既定的标准进行评价
降维:主成分分析(PCA)算法,特征选择,线性判别分析(LDA)算法
聚类:K-Means,均值漂移(Mean Shift)算法,K-Medoids算法
- 强化学习:自学自评,没有老师,学生自己对问题的答案进行自我评价
深度学习
定义:一般是指通过训练多层网络结构对未知数据进行分类或回归
分类:
- 有监督学习方法:深度前馈网络,卷积神经网络,循环神经网络
- 无监督学习方法:深度信念网,深度玻尔兹曼机,深度自编码器
应用:
- 图像处理领域:图像分类(物体识别),物体检测,图像分割,图像回归
- 语音识别领域:语音识别,声纹识别,语音合成
- 自然语言处理领域:语言模型,情感分析,神经机器翻译,神经自动摘要,机器阅读理解,自然语言推理
- 综合应用:图像描述,可视问答,图像生成,视频生成
2 数学基础
具体可见:数学基础
总览
- 张量、矩阵运算、矩阵的基础知识、矩阵分解
- 概率统计、常见的(多变量)分布
- 信息论、熵、互信息、相对熵、交叉熵
- 最优化估计方法、最小二乘、线性模型
矩阵论
矩阵的基本知识
矩阵:是一个二维数组,其中的每一个元素一般由两个索引(行列)来确定,一般用大写变量表示,m行n列的实数矩阵,记做
A
∈
R
m
×
n
A \in R_{m \times n}
A∈Rm×n.
张量(Tensor):是矢量概念的推广,可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数。标量(只有大小没有方向的单独的一个数)是0阶张量,矢量是一阶张量,矩阵是二阶张量,三维及以上数组一般称为张量。
矩阵的秩:矩阵列向量中的极大线性无关组的数目,记作矩阵的列秩,行秩定义类似,通常记作rank(A)。。其中,行秩=列秩=矩阵的秩
矩阵的逆:
- 若矩阵A为方阵,当 r a n k ( A n × n ) < n rank(A_{n×n})<n rank(An×n)<n时,称A为奇异矩阵或不可逆矩阵;
- 若矩阵A为方阵,当 r a n k ( A n × n ) = n rank(A_{n×n})=n rank(An×n)=n时,称A为非奇异矩阵或可逆矩阵
其逆矩阵
A
−
1
A^{-1}
A−1 满足以下条件,则称
A
−
1
A^{-1}
A−1 为矩阵A的逆矩阵:
A
A
−
1
=
A
−
1
A
=
I
n
AA^{-1} = A^{-1}A = I_n
AA−1=A−1A=In
其中
I
n
I_n
In 是
n
×
n
n×n
n×n 的单位阵。
矩阵的广义逆矩阵:
- 如果矩阵不为方阵或者是奇异矩阵,不存在逆矩阵,但是可以计算其广义逆矩阵或者伪逆矩阵;
- 对于矩阵A,如果存在矩阵 B B B 使得 A B A = A ABA=A ABA=A,则称 B B B 为 A A A 的广义逆矩阵。
矩阵分解
机器学习中常见的矩阵分解有特征分解和奇异值分解。奇异值分解能够用于任意 m ∗ n m * n m∗n矩阵,而特征分解只能适用于特定类型的方阵,故奇异值分解的适用范围更广。
先回顾下矩阵的特征值和特征向量的定义:
- 若矩阵 A A A 为方阵,则存在非零向量 x x x 和常数 λ \lambda λ 满足 A x = λ x Ax=\lambda x Ax=λx,则称 $ \lambda$ 为矩阵 $ A$ 的一个特征值, x x x 为矩阵 A A A 关于 λ \lambda λ 的特征向量。
- A n × n A_{n \times n} An×n 的矩阵具有 n n n 个特征值, λ 1 ≤ λ 2 ≤ ⋯ ≤ λ n λ_1 ≤ λ_2 ≤ ⋯ ≤ λ_n λ1≤λ2≤⋯≤λn 其对应的n个特征向量为 𝒖 1 , 𝒖 2 , ⋯ , 𝒖 𝑛 𝒖_1,𝒖_2, ⋯ ,𝒖_𝑛 u1,u2,⋯,un
- 矩阵的迹(trace)和行列式(determinant)的值分别为
tr
(
A
)
=
∑
i
=
1
n
λ
i
∣
A
∣
=
∏
i
=
1
n
λ
i
\operatorname{tr}(\mathrm{A})=\sum_{i=1}^{n} \lambda_{i} \quad|\mathrm{~A}|=\prod_{i=1}^{n} \lambda_{i}
tr(A)=i=1∑nλi∣ A∣=i=1∏nλi
迹为特征值之和,行列式的值为特征值之积
矩阵特征分解:
A
n
×
n
A_{n \times n}
An×n 的矩阵具有
n
n
n 个不同的特征值,那么矩阵A可以分解为
A
=
U
Σ
U
T
A = U\Sigma U^{T}
A=UΣUT.
其中 Σ = [ λ 1 0 ⋯ 0 0 λ 2 ⋯ 0 0 0 ⋱ ⋮ 0 0 ⋯ λ n ] U = [ u 1 , u 2 , ⋯ , u n ] ∥ u i ∥ 2 = 1 \Sigma=\left[\begin{array}{cccc}\lambda_{1} & 0 & \cdots & 0 \\ 0 & \lambda_{2} & \cdots & 0 \\ 0 & 0 & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_{n}\end{array}\right] \quad \mathrm{U}=\left[\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \cdots, \boldsymbol{u}_{n}\right] \quad \left\|\boldsymbol{u}_{i}\right\|_{2}=1 Σ=⎣⎢⎢⎢⎡λ10000λ200⋯⋯⋱⋯00⋮λn⎦⎥⎥⎥⎤U=[u1,u2,⋯,un]∥ui∥2=1 .
奇异值分解:对于任意矩阵
A
m
×
n
A_{m \times n}
Am×n,存在正交矩阵
U
m
×
m
U_{m \times m}
Um×m 和
V
n
×
n
V_{n \times n}
Vn×n,使其满足
A
=
U
Σ
V
T
U
T
U
=
V
T
V
=
I
A = U \Sigma V^{T} \quad U^T U = V^T V = I
A=UΣVTUTU=VTV=I,则称上式为矩阵
A
A
A 的特征分解。
概率统计
随机变量和常用统计量
随机变量:定义在样本空间上,取值于实数的函数称为随机变量,可以是离散的也可以是连续的。离散随机变量是指拥有有限个或者可列无限多个状态的随机变量,连续随机变量是指变量值不可随机列举出来的随机变量,一般取实数值。
例子:
- 投掷一枚硬币为正面是离散型随机事件X,发生概率P(X=1)=0.5
- 每次射箭距离靶心的距离X可以认为连续型随机变量,距离靶心小 于1cm的概率P(X<1cm)
方差:用来衡量随机变量与数学期望之间的偏离程度。统计中的方差则为样本方差,是各个样本数据分别与其平均数之差 的平方和的平均数,计算过程为:
Var
(
X
)
=
E
{
[
x
−
E
(
x
)
]
2
}
=
E
(
x
2
)
−
[
E
(
x
)
]
2
\operatorname{Var}(X)=E\left\{[x-E(x)]^{2}\right\}=E\left(x^{2}\right)-[E(x)]^{2}
Var(X)=E{[x−E(x)]2}=E(x2)−[E(x)]2
协方差:衡量两个随机变量X和Y直接的总体误差,计算过程为:
Cov
(
X
,
Y
)
=
E
{
[
x
−
E
(
x
)
]
[
y
−
E
(
y
)
]
}
=
E
(
x
y
)
−
E
(
x
)
E
(
y
)
\operatorname{Cov}(X,Y)=E\left\{[x-E(x)][y-E(y)]\right\}=E\left(xy\right)-E(x)E(y)
Cov(X,Y)=E{[x−E(x)][y−E(y)]}=E(xy)−E(x)E(y)
常见的概率分布
伯努利分布
- 伯努利试验:又称0-1分布,只可能有两种结果的单次随机实验,是单个二值型离散随机变量的分布
- 其概率分布: P ∗ ( ∗ X = 1 ) = p , P ( X = 0 ) = 1 − p P*(*X=1)=p,P(X=0)=1-p P∗(∗X=1)=p,P(X=0)=1−p.
二项分布
- 二项分布即重复n次伯努利试验,各试验之间都相互独立
- 如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中事件发生k次的概率为
P ( X = k ) = C n k p k ( 1 − p ) n − k P(X = k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k
均匀分布
均匀分布,又称矩形分布,在给定长度间隔[a,b]内的分布概率是等可能的,均匀分布由参数a,b定义,概率密度函数为:
p
(
x
)
=
1
b
−
a
,
a
<
x
<
b
p(x) = \frac{1}{b-a}, \quad a < x <b
p(x)=b−a1,a<x<b
高斯分布
高斯分布,又称正态分布(normal),是实数中最常用的分布,由均值μ和标准差σ决定其分布,概率密度函数为:
p
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}
p(x)=2πσ1e−2σ2(x−μ)2
指数分布
常用来表示独立随机事件发生的时间间隔,参数为 λ > 0 λ>0 λ>0的指数分布概率密度函数为: p ( x ) = λ e − λ x x ≥ 0 p(x) = \lambda e^{-\lambda x} \quad x \geq 0 p(x)=λe−λxx≥0. 指数分布重要特征是无记忆性,例如婴儿出生的时间间隔
多变量概率分布
条件概率(Conditional probability):事件X在事件Y发生的条件下发生的概率, P ( X ∣ Y ) P(X|Y) P(X∣Y)
联合概率(Joint probability):表示两个事件X和Y共同发生的概率, P ( X , Y ) P(X,Y) P(X,Y)
条件概率和联合概率的性质: P ( Y ∣ X ) = P ( Y , X ) P ( X ) P ( X ) > 0 P(Y|X) = \frac{P(Y,X)}{P(X)} \quad P(X ) > 0 P(Y∣X)=P(X)P(Y,X)P(X)>0.
先验概率(Prior probability):根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现。如全概率公式。
后验概率(Posterior probability):指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得的更接近实际情况的概率估计。如贝叶斯公式
例子:
全概率公式:设事件
{
A
i
}
\{A_i\}
{Ai}是样本空间
Ω
Ω
Ω 的一个划分,且
P
(
A
i
)
>
0
(
i
=
1
,
2
,
.
.
.
,
n
)
P(A_i)>0(i=1,2,...,n)
P(Ai)>0(i=1,2,...,n),那么:
P
(
B
)
=
∑
i
=
1
n
P
(
A
i
)
P
(
B
∣
A
i
)
P(B) = \sum_{i = 1}^nP(A_i)P(B|A_i)
P(B)=∑i=1nP(Ai)P(B∣Ai).
贝叶斯公式:全概率公式给我们提供了计算后验概率的途径,即贝叶斯公式
P
(
A
i
∣
B
)
=
P
(
B
∣
A
i
)
P
(
A
i
)
P
(
B
)
=
P
(
B
∣
A
i
)
P
(
A
i
)
∑
j
=
1
n
P
(
A
j
)
P
(
B
∣
A
j
)
P\left(\mathrm{~A}_{i} \mid \mathrm{B}\right)=\frac{P\left(\mathrm{~B} \mid \mathrm{A}_{i}\right) P\left(\mathrm{~A}_{i}\right)}{P(\mathrm{~B})}=\frac{P\left(\mathrm{~B} \mid \mathrm{A}_{i}\right) P\left(\mathrm{~A}_{i}\right)}{\sum_{j=1}^{n} P\left(\mathrm{~A}_{j}\right) P\left(\mathrm{~B} \mid \mathrm{A}_{j}\right)}
P( Ai∣B)=P( B)P( B∣Ai)P( Ai)=∑j=1nP( Aj)P( B∣Aj)P( B∣Ai)P( Ai)
信息论
熵(Entropy)
一个物理学概念,它表示一个系统的不确定性程度,或者说是一个系统的混乱程度,信息熵类似与熵,只是领域不同。
信息熵:可以看作是样本集合纯度一种指标,也可以认为是样本集合包含的平均信息量。
假定当前样本集合X中第i类样本
𝑥
𝑖
𝑥_𝑖
xi 所占的比例为
P
(
𝑥
𝑖
)
(
i
=
1
,
2
,
.
.
.
,
n
)
P(𝑥_𝑖)(i=1,2,...,n)
P(xi)(i=1,2,...,n),则X的信息熵定义为:
H
(
X
)
=
−
∑
i
=
1
n
P
(
x
i
)
log
2
P
(
x
i
)
H(X) = -\sum_{i = 1}^n P(x_i)\log_2P(x_i)
H(X)=−i=1∑nP(xi)log2P(xi)
H(X)的值越小,则X的纯度越高,蕴含的不确定性越少
联合熵
两个随机变量X和Y的联合分布可以形成联合熵,度量二维随机变量XY的不确定性:
H
(
X
,
Y
)
=
−
∑
i
=
1
n
∑
j
=
1
n
P
(
x
i
,
y
j
)
log
2
P
(
x
i
,
y
j
)
H(X, Y) = -\sum_{i = 1}^n \sum_{j = 1}^n P(x_i,y_j)\log_2 P(x_i,y_j)
H(X,Y)=−i=1∑nj=1∑nP(xi,yj)log2P(xi,yj)
条件熵
在随机变量
X
X
X发生的前提下,随机变量
Y
Y
Y发生带来的熵,定义为
Y
Y
Y的条件熵,用
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X)表示,定义为:
条件熵用来衡量在已知随机变量X的条件下,随机变量Y的不确定。 熵、联合熵和条件熵之间的关系: H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y|X) = H(X,Y)-H(X) H(Y∣X)=H(X,Y)−H(X).
互信息
相对熵
相对熵又称KL散度,是描述两个概率分布P和Q差异的一种方法,记做D(P||Q)。在信息论中,D(P||Q)表示用概率分布Q来拟合真实分布P时,产生的信息表达的损耗,其中P表示信源的真实分布,Q表示P的近似分布。
- 离散形式: D ( P ∣ ∣ Q ) = ∑ P ( x ) log P ( x ) Q ( x ) D(P||Q) = \sum P(x)\log \frac{P(x)}{Q(x)} D(P∣∣Q)=∑P(x)logQ(x)P(x).
- 连续形式: D ( P ∣ ∣ Q ) = ∫ P ( x ) log P ( x ) Q ( x ) D(P||Q) = \int P(x)\log \frac{P(x)}{Q(x)} D(P∣∣Q)=∫P(x)logQ(x)P(x).
交叉熵
一般用来求目标与预测值之间的差距,深度学习中经常用到的一类损失函数度量,比如在对抗生成网络( GAN )中
交叉熵:
H
(
P
,
Q
)
=
−
∑
P
(
x
)
log
Q
(
x
)
H(P,Q) = -\sum P(x)\log Q(x)
H(P,Q)=−∑P(x)logQ(x).
最优化估计
最小二乘估计
最小二乘法经常应用于回归问题,可以方便地求得未知参数,比如曲线拟合、最小化能量或者最大化熵等问题。