#机器学习--补充数学基础--概率论
引言
本系列博客旨在为机器学习(深度学习)提供数学理论基础。因此内容更为精简,适合二次学习的读者快速学习或查阅。
1、概率分布
定义:
1)随机变量是可以随机地取不同值的变量,我们通常使用无格式字体中的小写字母,如
x,y
\text{x,y}
x,y 来表示随机变量本身,而用手写体中的小写字母,如
x
,
y
x,y
x,y 来表示随机变量能够取到的值,即一个可能的取值。概率分布用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。
2)离散型随机变量的概率分布可以用概率质量函数(probability mass function,PMF)来描述,通常用大写字母 P P P 来表示,PMF将随机变量能够取到的每个状态映射到随机变量取得该状态的概率,例如 x = x \text{x}=x x=x 的概率用 P ( x = x ) P(\text{x}=x) P(x=x) 来表示,当上下文可以明确时,可以简写为 P ( x ) P(x) P(x) 。
3)连续型随机变量的概率分布可以用概率密度函数(probability density function,PDF)来描述,通常用小写字母 p p p 来表示。
4)PMF和PDF可以同时作用于多个随机变量,此时称为联合概率分布,例如 P ( x = x , y = y ) P(\text{x}=x,\text{y}=y) P(x=x,y=y) 表示 x = x \text{x}=x x=x 和 y = y \text{y}=y y=y 同时发生的概率,可以简写为 P ( x , y ) P(x,y) P(x,y) 。
5)当我们知道了一组变量的联合概率分布,但想要了解其中一个子集的概率分布,这种定义在子集上的概率分布被称为边缘概率分布,对于离散型变量,即 ∀ x ∈ x , P ( x = x ) = ∑ y P ( x = x , y = y ) \forall x\in\text{x},P(\text{x}=x)=\sum_{y}P(\text{x}=x,\text{y}=y) ∀x∈x,P(x=x)=y∑P(x=x,y=y) 对于连续型变量,即 p ( x ) = ∫ p ( x , y ) d y p(x)=\int p(x,y)dy p(x)=∫p(x,y)dy
6)设有随机变量 x,y \text{x,y} x,y ,在 x = x \text{x}=x x=x 的前提下随机变量 y = y \text{y}=y y=y 的概率叫做条件概率,记作 P ( y = y ∣ x = x ) = P ( x = x , y = y ) P ( x = x ) P(\text{y}=y|\text{x}=x)=\frac{P(\text{x}=x,\text{y}=y)}{P(\text{x}=x)} P(y=y∣x=x)=P(x=x)P(x=x,y=y)
定理:
条件概率的链式法则,任何多维随机变量的联合概率分布,都可以分解成只有一个变量的条件概率相乘的形式:
P
(
x
1
,
…
,
x
n
)
=
P
(
x
1
)
∏
i
=
2
n
P
(
x
i
∣
x
1
,
…
,
x
i
−
1
)
P(\text{x}^{1},\dots,\text{x}^{n})=P(\text{x}^{1})\prod_{i=2}^{n}P(\text{x}^{i}|\text{x}^{1},\dots,\text{x}^{i-1})
P(x1,…,xn)=P(x1)i=2∏nP(xi∣x1,…,xi−1)
2、独立性和条件独立性
1)如果两个随机变量 x \text{x} x 和 y \text{y} y 的概率分布可以表示成两个因子的乘积形式,并且一个因子只包含 x \text{x} x ,另一个因子只包含 y \text{y} y ,我们就称这两个随机变量是相互独立的,即 ∀ x ∈ x , y ∈ y , p ( x = x , y = y ) = p ( x = x ) p ( y = y ) \forall x\in\text{x},y\in\text{y},p(\text{x}=x,\text{y}=y)=p(\text{x}=x)p(\text{y}=y) ∀x∈x,y∈y,p(x=x,y=y)=p(x=x)p(y=y)
2)如果关于 x \text{x} x 和 y \text{y} y 的条件概率分布对于 z z z 的每一个值都可以写成乘积的形式,那么这两个随机变量 x \text{x} x 和 y \text{y} y 在给定随机变量 z z z 时是条件独立的,即 ∀ x ∈ x , y ∈ y , z ∈ z , p ( x = x , y = y ∣ z = z ) = p ( x = x ∣ z = z ) p ( y = y ∣ z = z ) \forall x\in\text{x},y\in\text{y},z\in\text{z},p(\text{x}=x,\text{y}=y|\text{z}=z)=p(\text{x}=x|\text{z}=z)p(\text{y}=y|\text{z}=z) ∀x∈x,y∈y,z∈z,p(x=x,y=y∣z=z)=p(x=x∣z=z)p(y=y∣z=z)
3、期望、方差和协方差
1)函数 f ( x ) f(x) f(x) 关于某分布 P ( x ) P(\text{x}) P(x) 的期望是指,当 x x x 由 P P P 产生, f f f 作用于 x x x 时, f ( x ) f(x) f(x) 的平均值,对于离散型随机变量,期望可表示为: E x ∼ P [ f ( x ) ] = ∑ x P ( x ) f ( x ) E_{x\sim P}[f(x)]=\sum_{x}P(x)f(x) Ex∼P[f(x)]=x∑P(x)f(x) 对于连续性随机变量,期望可表示为: E x ∼ p [ f ( x ) ] = ∫ p ( x ) f ( x ) d x E_{x\sim p}[f(x)]=\int p(x)f(x)dx Ex∼p[f(x)]=∫p(x)f(x)dx
2)方差衡量的是当我们对 x x x 依据它的概率分布进行采样时,随机变量 x \text{x} x 的函数值会呈现多大的差异,即 V a r ( f ( x ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] Var(f(x))=E\left [ (f(x)-E[f(x)])^{2}\right] Var(f(x))=E[(f(x)−E[f(x)])2]
3)协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度,即 C o v ( f ( x ) , g ( y ) ) = E [ ( f ( x ) − E [ f ( x ) ] ) ( g ( y ) − E [ g ( y ) ] ) ] Cov(f(x),g(y))=E\left[ (f(x)-E[f(x)])(g(y)-E[g(y)])\right] Cov(f(x),g(y))=E[(f(x)−E[f(x)])(g(y)−E[g(y)])]
3)随机向量 x ∈ R n x\in R^{n} x∈Rn 的协方差矩阵是一个 n ∗ n n*n n∗n 的矩阵,即 C o v ( x ) i , j = C o v ( x i , x j ) Cov(x)_{i,j}=Cov(x_{i},x_{j}) Cov(x)i,j=Cov(xi,xj) ,协方差矩阵的对角元是方差,即 C o v ( x i , x i ) = V a r ( x i ) Cov(x_{i},x_{i})=Var(x_{i}) Cov(xi,xi)=Var(xi)。
4、估计、偏差和一致性
1)点估计试图为一些感兴趣的量提供单个“最优”预测。一般地,感兴趣的量可以是单个参数,或是某些参数模型中的一个向量参数,例如线性回归中的权重
w
w
w 。点估计也可以指输入和目标变量之间关系的估计,我们将这种类型的点估计称为函数估计。
2)偏差的定义如下:
b
i
a
s
(
θ
^
m
)
=
E
(
θ
^
m
)
−
θ
bias(\hat{\theta}_{m})=E(\hat{\theta}_{m})-\theta
bias(θ^m)=E(θ^m)−θ 其中期望作用在所有数据(看作从随机变量采样得到的)上,
θ
\theta
θ 是用于定义数据生成分布的
θ
\theta
θ 的真实值。如果
b
i
a
s
(
θ
^
m
)
=
0
bias(\hat{\theta}_{m})=0
bias(θ^m)=0 ,那么估计量
θ
^
m
\hat{\theta}_{m}
θ^m 被称为是无偏,这意味着
E
(
θ
^
m
)
=
θ
E(\hat{\theta}_{m})=\theta
E(θ^m)=θ 。如果
lim
m
→
∞
b
i
a
s
(
θ
^
m
)
=
0
\lim_{m\to\infty}bias(\hat{\theta}_{m})=0
limm→∞bias(θ^m)=0 ,那么估计量
θ
^
m
\hat{\theta}_{m}
θ^m 被称为是渐近无偏,这意味着
lim
m
→
∞
E
(
θ
^
m
)
=
θ
\lim_{m\to\infty}E(\hat{\theta}_{m})=\theta
limm→∞E(θ^m)=θ
3)一般来说,我们希望当数据集中的数据点的数量
m
m
m 增加时,点估计会收敛到对应参数的真实值,即
p
l
i
m
m
→
∞
θ
^
m
=
θ
plim_{m\to\infty}\hat{\theta}_{m}=\theta
plimm→∞θ^m=θ 符号
p
l
i
m
plim
plim 表示依概率收敛, 即对于任意的
ϵ
>
0
\epsilon>0
ϵ>0 ,当
m
→
∞
m\to\infty
m→∞ 时,有
P
(
∣
θ
^
m
−
θ
∣
>
ϵ
)
→
0
P(|\hat{\theta}_{m}-\theta|>\epsilon)\to0
P(∣θ^m−θ∣>ϵ)→0 。
上式表示的条件被称为一致性,一致性保证了估计量的偏差会随数据样本数目的增多而减少,但反过来并不成立----渐近无偏并不意味着一致性。因为估计量的方差可能过大,导致即使期望值无偏,估计误差也很大。例如,一个具有无偏性但方差很大的估计量,在样本规模很少时可能会产生很大的误差,而在样本规模很大时误差会逐渐变小,但仍有可能存在一些样本规模下误差较大的情况,因此并不能保证一致性。
5、贝叶斯规则
如果已知 P ( y ∣ x ) P(\text{y}|\text{x}) P(y∣x) 和 P ( x ) P(\text{x}) P(x) ,需要计算 P ( x ∣ y ) P(\text{x}|\text{y}) P(x∣y) 时,可以使用贝叶斯规则,即 P ( x ∣ y ) = P ( x ) P ( y ∣ x ) P ( y ) P(\text{x}|\text{y})=\frac{P(\text{x})P(\text{y}|\text{x})}{P(\text{y})} P(x∣y)=P(y)P(x)P(y∣x) 其中 P ( y ) = ∑ x P ( y ∣ x ) P ( x ) P(\text{y})=\sum_{x}P(\text{y}|\text{x})P(x) P(y)=x∑P(y∣x)P(x)
6、常用概率分布
1)Bernoulli分布是单个二值随机变量的分布,它由单个参数
ϕ
∈
[
0
,
1
]
\phi\in[0,1]
ϕ∈[0,1] 控制,
ϕ
\phi
ϕ 给出了随机变量等于
1
1
1 的概率,具有如下性质:
P
(
x
=
1
)
=
ϕ
P(\text{x}=1)=\phi
P(x=1)=ϕ
P
(
x
=
0
)
=
1
−
ϕ
P(\text{x}=0)=1-\phi
P(x=0)=1−ϕ
P
(
x
=
x
)
=
ϕ
x
(
1
−
ϕ
)
1
−
x
P(\text{x}=x)=\phi^{x}(1-\phi)^{1-x}
P(x=x)=ϕx(1−ϕ)1−x
E
x
[
x
]
=
ϕ
E_{\text{x}}[\text{x}]=\phi
Ex[x]=ϕ
V
a
r
x
(
x
)
=
ϕ
(
1
−
ϕ
)
Var_{\text{x}}(\text{x})=\phi(1-\phi)
Varx(x)=ϕ(1−ϕ)
2)Multinoulli分布又称范畴分布,是指在具有
k
k
k 个不同状态的单个离散型随机变量上的分布,其中
k
k
k 是一个有限值。Multinoulli分布由向量
p
∈
[
0
,
1
]
k
−
1
p\in[0,1]^{k-1}
p∈[0,1]k−1 参数化,其中每一个分量
p
i
p_{i}
pi 表示第
i
i
i 个状态的概率,最后的第
k
k
k 个状态的概率可以通过
1
−
1
T
p
1-1^{T}p
1−1Tp 给出。
3)高斯分布又称正态分布,由两个参数
μ
∈
R
\mu\in R
μ∈R 和
σ
∈
(
0
,
∞
)
\sigma\in(0,\infty)
σ∈(0,∞) 控制,其中参数
μ
\mu
μ 给出了中心峰值的坐标,这也是分布的均值:
E
[
x
]
=
μ
E[\text{x}]=\mu
E[x]=μ 。分布的标准差用
σ
\sigma
σ 表示,方差用
σ
2
\sigma^{2}
σ2 表示,表达式如下
ℵ
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
2
e
x
p
(
−
1
2
σ
2
(
x
−
μ
)
2
)
\aleph(x;\mu,\sigma^{2})=\sqrt{\frac{1}{2\pi\sigma^{2}}}exp\left(-\frac{1}{2\sigma^{2}}(x-\mu)^{2}\right)
ℵ(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
4)指数分布和Laplace分布,在深度学习中,我们经常会需要一个在
x
=
0
x=0
x=0 点处取得边界点的分布,为了实现这一目的,我们可以使用指数分布,即
p
(
x
;
λ
)
=
λ
1
x
≥
0
e
x
p
(
−
λ
x
)
p(x;\lambda)=\lambda 1_{x\ge0}exp(-\lambda x)
p(x;λ)=λ1x≥0exp(−λx) 指数分布用指示函数
1
x
≥
0
1_{x\ge0}
1x≥0 来使当
x
x
x 取负值时的概率为零。
一个联系紧密的概率分布是Laplace分布,它允许我们在任意一点
μ
\mu
μ 处设置概率质量的峰值,即
L
a
p
l
a
c
e
(
x
;
μ
,
γ
)
=
1
2
γ
e
x
p
(
−
∣
x
−
μ
∣
γ
)
Laplace(x;\mu,\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)
Laplace(x;μ,γ)=2γ1exp(−γ∣x−μ∣)
5)Dirac分布和经验分布,有时候,我们希望概率分布中的所有质量都集中在一个点上,可以通过Dirac delta 函数
δ
(
x
)
\delta(x)
δ(x) 定义概率密度函数来实现:
p
(
x
)
=
δ
(
x
−
μ
)
p(x)=\delta(x-\mu)
p(x)=δ(x−μ) 。Dirac分布经常作为经验分布的一个组成部分出现:
p
^
(
x
)
=
1
m
∑
i
=
1
m
δ
(
x
−
x
i
)
\hat{p}(x)=\frac{1}{m}\sum_{i=1}^{m}\delta(x-x^{i})
p^(x)=m1i=1∑mδ(x−xi)
7、常用函数的有用性质
1)logistic sigmoid函数常用来产生Bernoulli分布中的参数
ϕ
\phi
ϕ,因为它的范围是
(
0
,
1
)
(0,1)
(0,1) ,处在
ϕ
\phi
ϕ 的有效范围内,其表达式如下
σ
(
x
)
=
1
1
+
e
x
p
(
−
1
)
\sigma(x)=\frac{1}{1+exp(-1)}
σ(x)=1+exp(−1)1
2)softplus函数,它是函数
x
+
=
m
a
x
(
0
,
x
)
x^{+}=max(0,x)
x+=max(0,x) 的平滑形式,表达式如下
ζ
(
x
)
=
l
o
g
(
1
+
e
x
p
(
x
)
)
\zeta(x)=log(1+exp(x))
ζ(x)=log(1+exp(x))