再介绍完基本的概率基础知识后,现在总结一下常见的概率分布。
Bernoulli 分布
Bernoulli 分布(Bernoulli distribution) 是单个二值随机变量的分布。它由单个参数
ϕ
∈
[
0
,
1
]
\phi ∈ [0, 1]
ϕ∈[0,1] 控制,
ϕ
\phi
ϕ 给出了随机变量等于 1 的概率。它具有如下的一些性质:
P
(
x
=
1
)
=
ϕ
P (x = 1) = \phi
P(x=1)=ϕ
P ( x = 0 ) = 1 − ϕ P (x = 0) = 1 - \phi P(x=0)=1−ϕ
P ( x = x ) = ϕ x ( 1 − ϕ ) 1 − x P({\rm x} = x) = \phi^{x}(1 − \phi)^{1−x} P(x=x)=ϕx(1−ϕ)1−x
E x [ x ] = ϕ \mathbb{E}_x[x] = \phi Ex[x]=ϕ
V a r x ( x ) = ϕ ( 1 − ϕ ) Var_x(x) = \phi(1 − \phi) Varx(x)=ϕ(1−ϕ)
说实在的有点晦涩,表达也不直观。下面给出简洁的解释
伯努利分布是一种概率分布,用于描述只有两个可能结果的随机试验,比如成功和失败。它由一个参数控制,该参数表示成功的概率。伯努利分布的概率质量函数可以表示为:
P ( X = x ) = { ϕ , if x = 1 1 − ϕ , if x = 0 P(X = x) = \begin{cases} \phi, & \text{if } x = 1 \\ 1 - \phi, & \text{if } x = 0 \end{cases} P(X=x)={ϕ,1−ϕ,if x=1if x=0
其中, X X X 是随机变量, x x x 是取值, ϕ \phi ϕ 是成功的概率。伯努利分布的期望值为 ϕ \phi ϕ,方差为 ϕ ( 1 − ϕ ) \phi(1 - \phi) ϕ(1−ϕ)。
Multinoulli 分布
Multinoulli 分布(multinoulli distribution) 或者 范畴分布(categorical dis- tribution) 是指在具有 k k k 个不同状态的单个离散型随机变量上的分布,其中 k k k 是一 个有限值。
高斯分布
高斯分布 (Gaussian distribution),也被称为 正态分布(normal distribution),是一种在实数上的连续概率分布。它的概率密度函数呈钟形;可以由两个参数描述: 均值 μ 均值\mu 均值μ 和 $方差 \sigma^2 $。高斯分布的概率密度函数为:
N ( x ; μ , σ 2 ) = f ( x ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 \mathcal{N}(x;\mu,\sigma^2) = f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ - \frac{(x-\mu)^2}{2\sigma^2} } N(x;μ,σ2)=f(x)=2πσ21e−2σ2(x−μ)2
在μ处达到最大值,σ决定了分布的宽度。当x等于μ时,函数达到最大值。当x远离μ时,函数值迅速接近0。
当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时,正态分布是默认的比较好的选择,其中有两个原因。
- 中心极限定理:这是一个统计学的基本定理,它表明,如果你从任何分布中抽取足够大的样本,那么样本均值的分布将接近正态分布,无论原始数据分布如何。这使得正态分布在许多实际应用中都非常有用。
- 在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大 的不确定性。因此,我们可以认为正态分布是对模型加入的先验知识量最少的分布。
TODO
- 多维正态分布
指数分布和 Laplace 分布
指数分布是一种连续概率分布,用于表示独立随机事件发生的时间间隔。例如,电话呼叫的到达时间或机器零件的寿命。指数分布的概率密度函数为:
f ( x ; λ ) = λ e − λ x for x ≥ 0 , λ > 0 f(x;\lambda) = \lambda e^{-\lambda x} \quad \text{for } x \geq 0, \lambda > 0 f(x;λ)=λe−λxfor x≥0,λ>0
其中,λ是事件发生的平均速率。
下面是花书介绍
在深度学习中,我们经常会需要一个在
x
=
0
x = 0
x=0 点处取得边界点 (sharp point) 的分布。为了实现这一目的,我们可以使用 指数分布(exponential distribution):
p
(
x
;
λ
)
=
λ
1
x
≥
0
exp
(
−
λ
x
)
.
p(x; \lambda) = \lambda \textbf{1}_{x≥0} \textnormal{exp}(−\lambda x).
p(x;λ)=λ1x≥0exp(−λx).
指数分布使用指示函数(indicator function)
1
x
≥
0
\textbf{1}_{x≥0}
1x≥0 来使得当
x
x
x 取负值时的概率为零。
Laplace 分布,也称为双指数分布,是一种连续概率分布。它以其双峰形状和中心在均值处的尖峰而闻名。Laplace 分布的概率密度函数为:
f ( x ; μ , γ ) = 1 2 γ e − ∣ x − μ ∣ γ f(x; \mu, \gamma) = \frac{1}{2\gamma} e^{-\frac{|x - \mu|}{\gamma}} f(x;μ,γ)=2γ1e−γ∣x−μ∣
其中,μ是位置参数,决定了分布的中心;b是尺度参数,决定了分布的宽度。
分布的混合
通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造 混合分布(mixture distribution)。
混合分布是一种概率分布,它由多个其他概率分布的“混合”或“组合”构成。这些组成的分布被称为混合分布的“组分”。
P ( x ) = ∑ i P ( c = i ) P ( x ∣ c = i ) P (\rm x) = \sum_i P (\rm c = \mathnormal{i})P (\rm x | c = \rm \mathnormal{i}) P(x)=i∑P(c=i)P(x∣c=i)
这里 P© 是对各组件的一个 Multinoulli 分布。
混合模型使我们能够一瞥以后会用到的一个非常重要的概念——潜变量 (latent variable)。潜变量是我们不能直接观测到的随机变量。混合模型的组件标识变量 c 就是其中一个例子。潜变量在联合分布中可能和 x 有关,在这种情况下, P ( x , c ) = P ( x ∣ c ) P ( c ) P (\rm x, c) = P (\rm x | c)P (c) P(x,c)=P(x∣c)P(c) 。潜变量的分布 P ( c ) P (c) P(c) 以及关联潜变量和观测变量的条件分布 P ( x ∣ c ) P (\rm x | c) P(x∣c),共同决定了分布 P ( x ) P (\rm x) P(x) 的形状,尽管描述 P ( x ) P (\rm x) P(x) 时可能并不需要潜变量。潜变量将在第 16.5 节中深入讨论。