离散分布
伯努利分布
分布:
x
∼
B
(
1
,
p
)
x\sim B(1,p)
x∼B(1,p)
均值:
p
p
p
方差:
p
(
1
−
p
)
p(1-p)
p(1−p)
概念:一次伯努利试验成功0次或者1次的概率
二项分布
分布:
x
∼
B
(
n
,
p
)
,
P
(
x
=
k
)
=
C
n
k
p
k
(
1
−
p
)
(
n
−
k
)
(
1
≤
k
≤
n
)
x\sim B(n,p), P(x=k)=C_n^k p^k(1-p)^{(n-k)}(1\leq k \leq n)
x∼B(n,p),P(x=k)=Cnkpk(1−p)(n−k)(1≤k≤n)
均值:
n
p
np
np
方差:
n
p
(
1
−
p
)
np(1-p)
np(1−p)
概念:
n
n
n次伯努利试验成功
k
k
k次的概率。
意义:从
N
N
N个物品(A类物品占比
p
p
p)中有放回的抽样
n
n
n个物品,其中抽取的物品恰好包含
k
k
k个A类物品的概率。
泊松分布
分布:
x
∼
P
(
λ
)
,
P
(
x
=
k
)
=
λ
k
e
−
λ
k
!
(
0
≤
k
)
x\sim P(\lambda), P(x=k)=\frac{\lambda^ke^{-\lambda}}{k!}(0\leq k )
x∼P(λ),P(x=k)=k!λke−λ(0≤k)
均值:
λ
\lambda
λ
方差:
λ
\lambda
λ
概念:在一个给定的区间内,某种事件(事件在每一点发生与否是独立的,且每一点至多发生一次)发生的次数为
k
k
k的概率。这里
λ
\lambda
λ是与区间长度、事件发生密度相关的量。可以看作满足
n
p
=
λ
,
n
→
∞
np=\lambda,n\rightarrow\infty
np=λ,n→∞的二项分布,故均值、方差均为
λ
\lambda
λ
几何分布
分布:
x
∼
G
E
(
p
)
,
P
(
x
=
k
)
=
p
(
1
−
p
)
(
k
−
1
)
(
k
≥
1
)
x\sim GE(p),P(x=k)=p(1-p)^{(k-1)}(k\geq 1)
x∼GE(p),P(x=k)=p(1−p)(k−1)(k≥1)
均值:
1
p
\frac{1}{p}
p1
方差:
1
−
p
p
2
\frac{1-p}{p^2}
p21−p
概念:在n次伯努利试验中,前k-1次皆失败,第k次成功的概率
超几何分布
分布:
x
∼
H
(
N
,
M
,
n
)
,
P
(
x
=
k
)
=
C
M
k
C
N
−
M
n
−
k
C
N
n
x\sim H(N, M, n), P(x=k)=\frac{C_M^kC_{N-M}^{n-k}}{C_N^n}
x∼H(N,M,n),P(x=k)=CNnCMkCN−Mn−k
均值:
n
M
N
\frac{nM}{N}
NnM
方差:
n
M
N
−
(
n
M
N
)
2
+
n
(
n
−
1
)
M
(
M
−
1
)
N
(
N
−
1
)
\frac{nM}{N}-(\frac{nM}{N})^2+\frac{n(n-1)M(M-1)}{N(N-1)}
NnM−(NnM)2+N(N−1)n(n−1)M(M−1)
概念:从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件
k
k
k次的概率(不放回)
与二项分布的关系:当
N
→
∞
N\rightarrow \infty
N→∞,超几何分布等价于二项分布
B
(
n
,
M
N
)
B(n, \frac{M}{N})
B(n,NM)
softmax分布
对伯努利分布的推广
多项分布
P
(
x
1
=
m
1
,
x
2
=
m
2
,
.
.
.
,
x
n
=
m
n
)
=
N
!
m
1
!
m
2
!
.
.
.
m
n
!
p
1
m
1
p
2
m
2
.
.
.
p
n
m
n
P(x_1=m_1, x_2=m_2, ..., x_n=m_n)=\frac{N!}{m_1!m_2!...m_n!}p_1^{m_1}p2^{m_2}...p_n^{m_n}
P(x1=m1,x2=m2,...,xn=mn)=m1!m2!...mn!N!p1m1p2m2...pnmn
概念:n次softmax试验
连续分布
均匀分布
分布:
x
∼
U
(
a
,
b
)
x\sim U(a,b)
x∼U(a,b)
均值:
a
+
b
2
\frac{a+b}{2}
2a+b
方差:
(
b
−
a
)
2
12
\frac{(b-a)^2}{12}
12(b−a)2
高斯分布
分布:
x
∼
N
(
μ
,
δ
2
)
,
p
(
x
)
=
1
2
π
δ
2
(
x
−
μ
)
2
δ
2
x\sim N(\mu, \delta^2), p(x)=\frac{1}{\sqrt{2\pi\delta^2}}\frac{(x-\mu)^2}{\delta^2}
x∼N(μ,δ2),p(x)=2πδ21δ2(x−μ)2
均值:
μ
\mu
μ
方差:
δ
2
\delta^2
δ2
扩展:高斯分布与L2正则化
指数分布
分布:
x
∼
E
(
λ
)
,
p
(
x
)
=
λ
e
−
λ
x
x\sim E(\lambda), p(x)=\lambda e^{-\lambda x}
x∼E(λ),p(x)=λe−λx
均值:
1
λ
\frac{1}{\lambda}
λ1
方差:
1
λ
2
\frac{1}{\lambda^2}
λ21
意义:灯泡寿命
泊松分布是单位时间内独立事件发生次数的概率分布,指数分布是独立事件的时间间隔的概率分布(引用自http://www.ruanyifeng.com/blog/2015/06/poisson-distribution.html)
拉普拉斯分布
分布:
x
∼
L
a
p
l
a
c
e
(
μ
,
λ
)
,
p
(
x
)
=
1
2
λ
e
−
∣
x
−
μ
∣
λ
x\sim Laplace(\mu, \lambda), p(x)=\frac{1}{2\lambda}e^{-\frac{|x-\mu|}{\lambda}}
x∼Laplace(μ,λ),p(x)=2λ1e−λ∣x−μ∣
均值:
μ
\mu
μ
方差:
2
λ
2
2\lambda^2
2λ2
形状:相当于两个背靠背的指数分布
扩展:拉普拉斯分布于L1正则化
贝塔分布
分布:
x
∼
B
e
t
a
(
x
∣
a
,
b
)
,
p
(
x
)
=
Γ
(
a
+
b
)
Γ
(
a
)
Γ
(
b
)
x
a
−
1
(
1
−
x
)
b
−
1
x\sim Beta(x|a,b), p(x)=\frac{\Gamma (a+b)}{\Gamma (a)\Gamma (b)}x^{a-1}(1-x)^{b-1}
x∼Beta(x∣a,b),p(x)=Γ(a)Γ(b)Γ(a+b)xa−1(1−x)b−1
均值:
a
a
+
b
\frac{a}{a+b}
a+ba
方差:
a
b
(
a
+
b
)
2
(
a
+
b
+
1
)
\frac{ab}{(a+b)^2(a+b+1)}
(a+b)2(a+b+1)ab
概念:关于连续变量
x
∈
[
0
,
1
]
x\in[0,1]
x∈[0,1]的概率分布
Γ
(
a
)
=
∫
0
∞
x
a
−
1
e
−
x
d
x
\Gamma(a)=\int_{0}^{\infty}x^{a-1}e^{-x}dx
Γ(a)=∫0∞xa−1e−xdx
迪利克雷分布
分布:
x
∼
D
i
r
(
x
∣
α
)
,
p
(
x
)
=
Γ
(
α
^
)
Γ
(
α
1
)
Γ
(
α
2
)
.
.
.
Γ
(
α
d
)
∏
i
=
1
i
=
d
x
i
α
i
−
1
x\sim Dir(x|\alpha), p(x)=\frac{\Gamma(\hat{\alpha})}{\Gamma(\alpha_1)\Gamma(\alpha_2)...\Gamma(\alpha_d)}\prod\limits_{i=1}^{i=d}x_i^{\alpha_i-1}
x∼Dir(x∣α),p(x)=Γ(α1)Γ(α2)...Γ(αd)Γ(α^)i=1∏i=dxiαi−1,其中
α
^
=
∑
i
=
1
i
=
d
α
i
\hat{\alpha}=\sum\limits_{i=1}^{i=d}\alpha_i
α^=i=1∑i=dαi
均值:
E
(
x
i
)
=
α
i
α
^
E(x_i)=\frac{\alpha_i}{\hat{\alpha}}
E(xi)=α^αi
方差:
D
(
x
i
)
=
α
i
(
α
^
−
α
i
)
α
^
2
(
α
^
+
1
)
,
c
o
v
(
x
i
,
x
j
)
=
α
i
α
j
α
^
2
(
α
^
+
1
)
D(x_i)=\frac{\alpha_i(\hat{\alpha}-\alpha_i)}{\hat{\alpha}^2(\hat{\alpha}+1)}, cov(x_i, x_j)=\frac{\alpha_i\alpha_j}{\hat{\alpha}^2(\hat{\alpha}+1)}
D(xi)=α^2(α^+1)αi(α^−αi),cov(xi,xj)=α^2(α^+1)αiαj
当
d
=
2
d=2
d=2时,退化为贝塔分布
概念:一组关于
d
d
d个连续变量
x
i
∈
[
0
,
1
]
x_i\in[0,1]
xi∈[0,1]且
∑
i
=
1
i
=
d
x
i
=
1
\sum\limits_{i=1}^{i=d} x_i=1
i=1∑i=dxi=1的概率分布
共轭分布
简单的对应关系
从二值到多值,伯努利分布–>softmax分布,二项分布–>多项分布
从随机变量到参数,伯努利分布的参数–>贝塔分布,softmax分布的参数–>迪利克雷分布
共轭分布
概念:设随机变量 x ∼ p ( x ∣ θ ) x\sim p(x|\theta) x∼p(x∣θ),参数 θ ∼ Π ( θ ) \theta\sim\Pi(\theta) θ∼Π(θ),给定观测样本,后验分布 p ( θ ∣ X ) p(\theta|X) p(θ∣X)与先验分布 Π ( θ ) \Pi(\theta) Π(θ)是同一种类型,则称先验分布 Π ( θ ) \Pi(\theta) Π(θ)为关于 p ( x ∣ θ ) p(x|\theta) p(x∣θ)的共轭分布。
优点:共轭分布可以使得问题得以简化。比如当随机变量服从伯努利分布且参数服从Beta分布时,给定观测样本后,只需要更新Beta分布的参数即可对模型进行更新
常用共轭分布表
p ( x ∥ θ ) p(x\|\theta) p(x∥θ) | Π ( θ ) \Pi(\theta) Π(θ) |
---|---|
伯努利分布 (二项分布) | 贝塔分布 |
softmax分布 (多项分布) | 迪利克雷分布 |
高斯分布 | 高斯分布 |