概率分布
总结一些广泛使用的概率分布的性质。对于每个概率分布,列出一些关键的统计性质,例如期望 E[x] 、方差(或者是协方差)、众数、熵 H[x] 。所有这些分布都是指数族的成员,被广泛用作更高级的概率模型的基本模块。
伯努利分布
这是单一二元变量的 x∈{0,1} 的分布。例如,抛硬币的结果。它是由一个连续参数 μ∈[0,1] 控制,这个参数表示 x=1 的概率。
Bern(x∖u)=μx(1−μ)1−x
E[x]=μ
var[x]=μ(1−μ)
mode[x]={1,0,如果μ≥0.5否则
H[x]=−μlnμ−(1−μ)ln(1−μ)
伯努利分布是二项分布对单一观测的特殊情况。它对于 μ 的共轭先验分布是Beta分布。Beta分布
这是连续变量 μ∈[0,1] 的分布,经常用于表示某些二元事件的概率。它有两个参数 a 和b 。为了保证分布能够归一化,我们要求 a>0 并且 b>0 。
Beta(μ∖a,b)=Γ(a+b)Γ(a)Γ(b)μa−1μb−1
E[μ]=aa+b
var[μ]=ab(a+b)2(a+b+1)
mode[μ]=a−1a+b−2
Beta分布是伯努利分布的共轭先验,其中a和b可以分别表示为 x=1 和 x=0 的观测的有效先验数量。如果 a≥1 且 b≥1 ,那么它的概率密度是有限值,否则在 μ=0和(或) mu=1 处会有奇异值。对于 a=b=1 的情形,它就简化成了均匀分布。Beta分布是 K 状态狄利克雷分布在K=2 时的特殊情形。- 二项分布
二项分布给出了来自伯努利分布的 N个 样本中观察到 m 次x=1 的概率。伯努利分布中,观察到 x=1 的概率是 μ∈[0,1] 。
Bin(m∖N,μ)=⟮Nm⟯μm(1−μ)N−m
E[m]=Nμ
var[x]=Nμ(1−μ)
mode[m]=⌊(N+1)μ⌋
其中 ⌊(N+1)μ⌋ 表示不超过 (N+1)μ 的最大整数。此外
⟮Nm⟯=N!m!(N−m)!
表示从 N 个完全相同的物体中选择m 个物体的总方案数量。这里 m! 表示乘积 m×(m−1)×⋯×2×1 。二项分布中 N=1 这一特殊情形被称为伯努利分布,对于大的 N 值,二项分布近似于高斯分布。μ 的共轭先验分布是Beta分布。 - 狄利克雷分布
狄利克雷分布是K个随机变量 0≤μk≤1 的多变量分布,其中 k=1,…,K ,并且满足下面的限制
0≤μk≤1,∑k=1Kμk=1
记 μ=(μ1,…,μK)T , α=(α1,…,μK)T ,我们有
Dir(μ∖α)=C(α)∏k=1Kμαk−1k
E[μk]=αkα^
var[μk]=αk(α^−αk)α^2(α^+1)
cov[μjμk]=−αjαkα^2(α^+1)
mode[μk]=αk−1α^−K
E[lnμk]=ψ(αk)−ψ(α^)
H[μ]=−∑k=1K(αk−1){ψ(αk)−ψ(α^)}−lnC(α)
其中
C(α)=Γ(α^)Γ(α1)…Γ(αK)
并且
α^=∑k=1Kαk
这里
ψ(a)=ddalnΓ(a)
被称为digamma函数(Abramowitz and Stegun,1965)。为了保证概率归一化,参数 αk 满足限制 αk>0 。
狄利克雷分布是多项式分布的共轭先验,是Beta分布的推广。这种情况下,参数 αk 是 K 维二元观测向量x 对应值的有效观测数据。和Beta分布相同,如果对于所有的 k 都有αk≥1 。那么狄利克雷分布在空间中所有位置的密度均为有限值。