密度估计:在给定有限观测集合 x ⃗ 1 , x ⃗ 2 , . . . , x ⃗ N \vec{x}_1,\vec{x}_2,...,\vec{x}_N x1,x2,...,xN的情况下,对随机变量 x ⃗ \vec{x} x的概率分布 p ( x ⃗ ) p(\vec{x}) p(x)进行建模。假设所有数据点独立同分布,
伯努利分布(bernoulli)
伯努利试验:只有两种结果的单次随机试验,如掷一枚硬币。
伯努利分布(0-1分布、两点分布):进行一次伯努利试验,表示单个二元变量
x
∈
{
0
,
1
}
x\in \{0,1\}
x∈{0,1}的分布,使用单个连续变量
μ
∈
[
0
,
1
]
\mu\in[0,1]
μ∈[0,1]表示
x
=
1
x=1
x=1的概率。则
p
(
x
=
1
∣
μ
)
=
μ
,
p
(
x
=
0
∣
μ
)
=
1
−
μ
p(x=1|\mu)=\mu, p(x=0|\mu)=1-\mu
p(x=1∣μ)=μ,p(x=0∣μ)=1−μ。合并这两个式子为下式:
B
e
r
n
(
x
∣
μ
)
=
μ
x
(
1
−
μ
)
1
−
x
Bern(x|\mu)=\mu^x(1-\mu)^{1-x}
Bern(x∣μ)=μx(1−μ)1−x。
伯努利分布的均值为
E
[
x
]
=
∑
B
e
r
n
(
x
∣
μ
)
x
=
μ
E[x]=\sum Bern(x|\mu)x=\mu
E[x]=∑Bern(x∣μ)x=μ,
方差为
v
a
r
[
x
]
=
E
[
(
x
−
E
(
x
)
2
)
]
=
∑
(
x
−
μ
)
2
B
e
r
n
(
x
∣
μ
)
=
(
1
−
μ
)
2
μ
+
μ
2
(
1
−
μ
)
=
μ
(
1
−
μ
)
var[x]=E[(x-E(x)^2)]=\sum(x-\mu)^2Bern(x|\mu)=(1-\mu)^2\mu+\mu^2(1-\mu)=\mu(1-\mu)
var[x]=E[(x−E(x)2)]=∑(x−μ)2Bern(x∣μ)=(1−μ)2μ+μ2(1−μ)=μ(1−μ),
伯努利分布是单次伯努利试验的观测结果,二项分布是N次独立重复伯努利试验的结果。伯努利分布关于
μ
\mu
μ的共轭先验是
b
e
t
a
beta
beta分布。
二项分布(binomial)
现在进行了N次伯努利试验,得到观察结果
D
=
{
x
1
,
x
2
,
.
.
.
,
x
N
}
D=\{x_1,x_2,...,x_N\}
D={x1,x2,...,xN}。则似然函数为
P
(
D
∣
μ
)
=
∏
n
=
1
N
p
(
x
n
∣
μ
)
=
∏
n
=
1
N
μ
x
n
(
1
−
μ
)
1
−
x
n
P(D|\mu)=\prod_{n=1}^Np(x_n|\mu)=\prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n}
P(D∣μ)=∏n=1Np(xn∣μ)=∏n=1Nμxn(1−μ)1−xn
对数似然函数为
l
n
P
(
D
∣
μ
)
=
∑
n
=
1
N
l
n
p
(
x
n
∣
μ
)
=
∑
n
=
1
N
[
x
n
l
n
μ
+
(
1
−
x
n
)
l
n
(
1
−
μ
)
]
lnP(D|\mu)=\sum_{n=1}^Nlnp(x_n|\mu)=\sum_{n=1}^N[x_nln\mu+(1-x_n)ln(1-\mu)]
lnP(D∣μ)=∑n=1Nlnp(xn∣μ)=∑n=1N[xnlnμ+(1−xn)ln(1−μ)]
对数似然函数对
μ
\mu
μ求导得
∂
l
n
P
(
D
∣
μ
)
∂
μ
=
∑
n
=
1
N
x
n
μ
−
1
−
x
n
1
−
μ
=
∑
n
=
1
N
x
n
−
μ
μ
(
1
−
μ
)
\frac{\partial lnP(D|\mu)}{\partial \mu}=\sum_{n=1}^N\frac{x_n}{\mu}-\frac{1-x_n}{1-\mu}=\sum_{n=1}^N\frac{x_n-\mu}{\mu(1-\mu)}
∂μ∂lnP(D∣μ)=∑n=1Nμxn−1−μ1−xn=∑n=1Nμ(1−μ)xn−μ
令导数等于0,得
μ
M
L
=
1
N
∑
n
=
1
N
x
n
\mu_{ML}=\frac{1}{N}\sum_{n=1}^Nx_n
μML=N1∑n=1Nxn
令
m
m
m为N次独立重复试验中
x
=
1
x=1
x=1出现的次数,则
μ
M
L
=
m
N
\mu_{ML}=\frac{m}{N}
μML=Nm
二项分布给出了
N
N
N次伯努利试验中出现了
m
m
m次
x
=
1
x=1
x=1的概率质量函数:
B
i
n
(
m
∣
N
,
μ
)
=
(
m
N
)
μ
m
(
1
−
μ
)
N
−
m
,
m
=
1
,
2
,
…
,
N
Bin(m|N,\mu)=(^N_m)\mu^m(1-\mu)^{N-m}, m=1,2,\ldots,N
Bin(m∣N,μ)=(mN)μm(1−μ)N−m,m=1,2,…,N,
其中
(
m
N
)
=
N
!
m
!
(
N
−
m
)
!
(^N_m)=\frac{N!}{m!(N-m)!}
(mN)=m!(N−m)!N!为二项式系数。
二项分布的均值为
E
[
x
]
=
∑
m
=
0
N
m
B
i
n
(
x
∣
N
,
μ
)
=
N
μ
E[x]=\sum_{m=0}^NmBin(x|N,\mu)=N\mu
E[x]=∑m=0NmBin(x∣N,μ)=Nμ,
方差为
v
a
r
[
x
]
=
N
μ
(
1
−
μ
)
var[x]=N\mu(1-\mu)
var[x]=Nμ(1−μ)
N
=
1
N=1
N=1时二项分布变为伯努利分布,当
N
N
N很大时近似为高斯(?见PRML686页)。二项分布关于
μ
\mu
μ的共轭先验是
b
e
t
a
beta
beta分布。
beta分布
共轭先验:如果后验分布与先验分布属于同类,则先验分布与后验分布称为共轭分布(conjugate distributions),先验分布称为共轭先验(conjugate prior)。
B
e
t
a
(
μ
∣
a
,
b
)
=
Γ
(
a
+
b
)
Γ
(
a
)
+
Γ
(
b
)
μ
a
−
1
(
1
−
μ
)
b
−
1
,
0
≤
μ
≤
1
Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1},0\leq \mu \leq 1
Beta(μ∣a,b)=Γ(a)+Γ(b)Γ(a+b)μa−1(1−μ)b−1,0≤μ≤1
其中
Γ
\Gamma
Γ是gamma函数,
Γ
(
x
)
=
∫
0
∞
μ
x
−
1
e
−
μ
d
μ
\Gamma(x)=\int_0^\infty \mu^{x-1}e^{-\mu}d\mu
Γ(x)=∫0∞μx−1e−μdμ,满足
Γ
(
x
+
1
)
=
x
Γ
(
x
)
\Gamma(x+1)=x\Gamma(x)
Γ(x+1)=xΓ(x),
Γ
(
0
)
=
1
\Gamma(0)=1
Γ(0)=1。当x为自然数时
Γ
(
x
)
=
(
x
−
1
)
!
\Gamma(x)=(x-1)!
Γ(x)=(x−1)!
beta分布满足
∫
0
∞
B
e
t
a
(
μ
∣
a
,
b
)
d
μ
=
1
\int_0^\infty Beta(\mu|a,b)d\mu=1
∫0∞Beta(μ∣a,b)dμ=1
beta分布的均值
E
[
μ
]
=
a
a
+
b
E[\mu]=\frac{a}{a+b}
E[μ]=a+ba
方差
V
a
r
[
μ
]
=
a
b
(
a
+
b
)
2
(
a
+
b
+
1
)
Var[\mu]=\frac{ab}{(a+b)^2(a+b+1)}
Var[μ]=(a+b)2(a+b+1)ab
后验概率:
p
(
μ
∣
m
,
l
,
a
,
b
)
∝
μ
a
+
m
−
1
(
1
−
μ
)
b
+
l
−
1
p(\mu|m,l,a,b)\propto \mu^{a+m-1}(1-\mu)^{b+l-1}
p(μ∣m,l,a,b)∝μa+m−1(1−μ)b+l−1,其中
l
=
N
−
m
l=N-m
l=N−m
这是另一个beta分布,写成标准形式为:
p
(
μ
∣
m
,
l
,
a
,
b
)
=
Γ
(
a
+
m
+
b
+
l
)
Γ
(
a
+
m
)
Γ
(
b
+
l
)
μ
a
+
m
−
1
(
1
−
μ
)
b
+
l
−
1
p(\mu|m,l,a,b) =\frac{\Gamma(a+m+b+l)}{\Gamma(a+m)\Gamma(b+l)} \mu^{a+m-1}(1-\mu)^{b+l-1}
p(μ∣m,l,a,b)=Γ(a+m)Γ(b+l)Γ(a+m+b+l)μa+m−1(1−μ)b+l−1
即二项分布的共轭先验beta分布通过
a
→
a
+
m
a \to a+m
a→a+m和
b
→
b
+
l
b \to b+l
b→b+l得到后验分布。
如果二项分布的先验分布是beta分布,则其后验分布也为beta分布,两者构成共轭分布。作为先验分布的beta分布的参数
a
,
b
a,b
a,b又称为超参数。使用共轭分布的好处是便于从先验分布计算后验分布。
多项分布(multinomial)
单次试验:
p
(
x
∣
μ
)
=
∏
k
=
1
K
μ
k
x
k
p(x|\mu)=\prod_{k=1}^K\mu_k^{x_k}
p(x∣μ)=∏k=1Kμkxk
其中
μ
k
≥
0
\mu_k \ge 0
μk≥0,
∑
k
=
1
K
μ
k
=
1
\sum_{k=1}^K \mu_k=1
∑k=1Kμk=1
N次试验:
D
=
{
x
1
,
…
,
x
N
}
D=\{x_1,\ldots,x_N\}
D={x1,…,xN}
p
(
D
∣
x
)
=
∏
n
=
1
N
∏
k
=
1
K
μ
k
x
n
k
=
∏
k
=
1
K
μ
k
∑
n
x
n
k
=
∏
k
=
1
K
μ
k
m
k
p(D|x)=\prod_{n=1}^N \prod_{k=1}^K\mu_k^{x_nk}=\prod_{k=1}^K\mu_k^{\sum_n x_nk}=\prod_{k=1}^K\mu_k^{m_k}
p(D∣x)=∏n=1N∏k=1Kμkxnk=∏k=1Kμk∑nxnk=∏k=1Kμkmk,其中
m
k
=
∑
n
x
n
k
m_k=\sum_n x_{nk}
mk=∑nxnk,表示
x
k
=
1
x_k=1
xk=1出现的次数,这也是多项分布的充分统计量。
为了从观察值中估计多项分布的参数,这里构造带限制条件
∑
k
=
1
K
μ
k
=
1
\sum_{k=1}^K\mu_k=1
∑k=1Kμk=1的拉格朗日函数:
L
(
μ
1
,
…
,
μ
K
,
λ
)
=
p
(
D
∣
x
)
+
λ
(
∑
k
=
1
K
−
1
)
L(\mu_1,\ldots,\mu_K,\lambda)=p(D|x)+\lambda (\sum_{k=1}^K-1)
L(μ1,…,μK,λ)=p(D∣x)+λ(∑k=1K−1)
=
∏
k
=
1
K
μ
k
m
k
+
λ
(
∑
k
=
1
K
−
1
)
=\prod_{k=1}^K\mu_k^{m_k}+\lambda (\sum_{k=1}^K-1)
=∏k=1Kμkmk+λ(∑k=1K−1)
取对数得:
l
n
L
(
μ
1
,
…
,
μ
K
,
λ
)
=
∑
k
=
1
K
m
k
l
n
u
k
+
λ
(
∑
k
=
1
K
−
1
)
lnL(\mu_1,\ldots,\mu_K,\lambda)=\sum_{k=1}^K m_klnu_k+\lambda (\sum_{k=1}^K-1)
lnL(μ1,…,μK,λ)=∑k=1Kmklnuk+λ(∑k=1K−1)
对
u
k
u_k
uk求导得:
∂
l
n
L
(
μ
1
,
…
,
μ
K
,
λ
)
∂
μ
k
=
∑
k
=
1
K
m
k
μ
k
+
λ
\frac{\partial lnL(\mu_1,\ldots,\mu_K,\lambda)}{\partial \mu_k}=\sum_{k=1}^K\frac{m_k}{\mu_k}+\lambda
∂μk∂lnL(μ1,…,μK,λ)=∑k=1Kμkmk+λ
令上式=0,得:
μ
k
=
−
m
k
λ
\mu_k=-\frac{m_k}{\lambda}
μk=−λmk
将上式带入
∑
k
=
1
K
μ
k
=
1
\sum_{k=1}^K\mu_k=1
∑k=1Kμk=1得:
∑
k
=
1
K
−
m
k
λ
=
−
∑
k
=
1
K
m
k
λ
=
1
\sum_{k=1}^K-\frac{m_k}{\lambda}=-\frac{\sum_{k=1}^K m_k}{\lambda}=1
∑k=1K−λmk=−λ∑k=1Kmk=1
得
λ
=
−
∑
k
=
1
K
m
k
=
−
N
\lambda=-\sum_{k=1}^K m_k=-N
λ=−∑k=1Kmk=−N
则参数
μ
\mu
μ的最大似然估计
μ
k
M
L
=
m
k
M
\mu_k^{ML}=\frac{m_k}{M}
μkML=Mmk
多项分布:
M
u
l
t
i
(
m
1
,
m
2
,
…
,
m
K
∣
μ
,
N
)
=
(
m
1
m
2
…
m
K
N
)
∏
k
=
1
K
μ
k
m
k
Multi(m_1,m_2,\ldots,m_K|\mu,N)=(_{m_1m_2\ldots m_K}^N)\prod_{k=1}^K\mu_k^{m_k}
Multi(m1,m2,…,mK∣μ,N)=(m1m2…mKN)∏k=1Kμkmk,其中
(
m
1
m
2
…
m
K
N
)
=
(
m
1
!
m
2
!
…
m
K
!
N
!
)
(_{m_1m_2\ldots m_K}^N)=(^{N!}_{m_1!m_2!\ldots m_K!})
(m1m2…mKN)=(m1!m2!…mK!N!)是多项式参数,满足
∑
k
=
1
K
m
k
=
N
\sum _{k=1}^Km_k=N
∑k=1Kmk=N
多项分布是一种多元离散随机变量的概率分布,是二项分布的扩展。假设重复进行n次独立随机试验,每次实验可能出现的结果有k种,第i种结果出现的概率为
μ
i
\mu_i
μi,第
i
i
i种结果出现的次数为
m
i
m_i
mi。如果用随机变量
X
=
(
X
1
,
X
2
,
…
,
X
K
)
X=(X_1,X_2,\ldots,X_K)
X=(X1,X2,…,XK)表示试验所有可能出现的次数,其中
X
i
X_i
Xi表示第
i
i
i种结果出现的次数,那么随机变量
X
X
X服从多项分布。
Dirichlet分布
若多元连续随机变量
μ
⃗
=
(
μ
1
,
…
,
μ
K
)
\vec\mu=(\mu_1,\ldots,\mu_K)
μ=(μ1,…,μK)的概率密度函数为
p
(
μ
∣
α
)
=
Γ
(
α
0
)
Γ
(
α
1
)
…
Γ
(
α
K
)
∏
k
=
1
K
μ
k
α
k
−
1
p(\mu | \alpha)=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\ldots\Gamma(\alpha_K)}\prod_{k=1}^K \mu_k^{\alpha_k-1}
p(μ∣α)=Γ(α1)…Γ(αK)Γ(α0)∏k=1Kμkαk−1
其中
∑
k
=
1
K
α
k
=
1
\sum_{k=1}^K\alpha_k=1
∑k=1Kαk=1,
α
0
=
∑
k
=
1
K
α
k
\alpha_0=\sum_{k=1}^K \alpha_k
α0=∑k=1Kαk
则称随机变量
μ
\mu
μ服从参数为
α
\alpha
α的狄利克雷分布,记作
μ
∼
D
i
r
(
α
)
\mu \thicksim Dir(\alpha)
μ∼Dir(α)
狄利克雷分布作为多项分布的先验分布时,其后验概率:
p
(
μ
∣
D
,
α
)
∝
p
(
D
∣
μ
)
p
(
μ
∣
α
)
∝
∏
k
=
1
K
μ
k
α
k
+
m
k
−
1
p(\mu|D,\alpha) \propto p(D|\mu)p(\mu|\alpha) \propto \prod_{k=1}^K \mu_k^{\alpha_k+m_k-1}
p(μ∣D,α)∝p(D∣μ)p(μ∣α)∝∏k=1Kμkαk+mk−1
这是另一个Dirichlet分布,写成标准的形式为:
p
(
μ
∣
D
,
α
)
=
D
i
r
(
μ
∣
α
+
m
)
=
Γ
(
α
0
+
N
)
Γ
(
α
1
+
m
1
)
…
Γ
(
α
K
+
m
K
)
∏
k
=
1
K
μ
k
α
k
+
m
k
−
1
p(\mu|D,\alpha)=Dir(\mu |\alpha+m)=\frac{\Gamma(\alpha_0+N)}{\Gamma(\alpha_1+m_1)\ldots\Gamma(\alpha_K+m_K)}\prod_{k=1}^K \mu_k^{\alpha_k+m_k-1}
p(μ∣D,α)=Dir(μ∣α+m)=Γ(α1+m1)…Γ(αK+mK)Γ(α0+N)∏k=1Kμkαk+mk−1
如果多项分布的先验分布是狄利克雷分布,则其后验分布也为一个狄利克雷分布,两者构成共轭分布。作为先验分布的狄利克雷分布的参数
α
\alpha
α又称为超参数。狄利克雷后验分布的参数等于狄利克雷先验分布的参数
α
=
(
α
1
,
α
2
,
…
,
α
K
)
\alpha=(\alpha_1,\alpha_2,\ldots,\alpha_K)
α=(α1,α2,…,αK)加上多项分布的观测计数
m
=
(
m
1
,
m
2
,
…
,
m
K
)
m=(m_1,m_2,\ldots,m_K)
m=(m1,m2,…,mK)。
总结
- 伯努利分布是二元离散随机变量单次试验的结果
- 二项分布是对二元离散随机变量进行N次独立重复试验的结果
- 贝塔分布是二项分布的共轭先验
- 类别分布是多元离散随机变量单次试验的结果
- 多项分布是二项分布扩展到多元离散随机变量的结果,也是类别分布重复N次的结果
- 狄利克雷分布是多项分布的共轭先验,也是贝塔分布从二元连续随机变量扩展到多元连续随机变量的结果