常见的离散变量概率分布(伯努利分布、二项分布、多项分布、beta分布、dirichlet分布)

密度估计:在给定有限观测集合 x ⃗ 1 , x ⃗ 2 , . . . , x ⃗ N \vec{x}_1,\vec{x}_2,...,\vec{x}_N x 1,x 2,...,x N的情况下,对随机变量 x ⃗ \vec{x} x 的概率分布 p ( x ⃗ ) p(\vec{x}) p(x )进行建模。假设所有数据点独立同分布,

伯努利分布(bernoulli)

伯努利试验:只有两种结果的单次随机试验,如掷一枚硬币。
伯努利分布(0-1分布、两点分布):进行一次伯努利试验,表示单个二元变量 x ∈ { 0 , 1 } x\in \{0,1\} x{0,1}的分布,使用单个连续变量 μ ∈ [ 0 , 1 ] \mu\in[0,1] μ[0,1]表示 x = 1 x=1 x=1的概率。则
p ( x = 1 ∣ μ ) = μ , p ( x = 0 ∣ μ ) = 1 − μ p(x=1|\mu)=\mu, p(x=0|\mu)=1-\mu p(x=1μ)=μ,p(x=0μ)=1μ。合并这两个式子为下式:
B e r n ( x ∣ μ ) = μ x ( 1 − μ ) 1 − x Bern(x|\mu)=\mu^x(1-\mu)^{1-x} Bern(xμ)=μx(1μ)1x
伯努利分布的均值为 E [ x ] = ∑ B e r n ( x ∣ μ ) x = μ E[x]=\sum Bern(x|\mu)x=\mu E[x]=Bern(xμ)x=μ
方差为 v a r [ x ] = E [ ( x − E ( x ) 2 ) ] = ∑ ( x − μ ) 2 B e r n ( x ∣ μ ) = ( 1 − μ ) 2 μ + μ 2 ( 1 − μ ) = μ ( 1 − μ ) var[x]=E[(x-E(x)^2)]=\sum(x-\mu)^2Bern(x|\mu)=(1-\mu)^2\mu+\mu^2(1-\mu)=\mu(1-\mu) var[x]=E[(xE(x)2)]=(xμ)2Bern(xμ)=(1μ)2μ+μ2(1μ)=μ(1μ)
伯努利分布是单次伯努利试验的观测结果,二项分布是N次独立重复伯努利试验的结果。伯努利分布关于 μ \mu μ的共轭先验是 b e t a beta beta分布。

二项分布(binomial)

现在进行了N次伯努利试验,得到观察结果 D = { x 1 , x 2 , . . . , x N } D=\{x_1,x_2,...,x_N\} D={x1,x2,...,xN}。则似然函数为
P ( D ∣ μ ) = ∏ n = 1 N p ( x n ∣ μ ) = ∏ n = 1 N μ x n ( 1 − μ ) 1 − x n P(D|\mu)=\prod_{n=1}^Np(x_n|\mu)=\prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n} P(Dμ)=n=1Np(xnμ)=n=1Nμxn(1μ)1xn
对数似然函数为
l n P ( D ∣ μ ) = ∑ n = 1 N l n p ( x n ∣ μ ) = ∑ n = 1 N [ x n l n μ + ( 1 − x n ) l n ( 1 − μ ) ] lnP(D|\mu)=\sum_{n=1}^Nlnp(x_n|\mu)=\sum_{n=1}^N[x_nln\mu+(1-x_n)ln(1-\mu)] lnP(Dμ)=n=1Nlnp(xnμ)=n=1N[xnlnμ+(1xn)ln(1μ)]
对数似然函数对 μ \mu μ求导得
∂ l n P ( D ∣ μ ) ∂ μ = ∑ n = 1 N x n μ − 1 − x n 1 − μ = ∑ n = 1 N x n − μ μ ( 1 − μ ) \frac{\partial lnP(D|\mu)}{\partial \mu}=\sum_{n=1}^N\frac{x_n}{\mu}-\frac{1-x_n}{1-\mu}=\sum_{n=1}^N\frac{x_n-\mu}{\mu(1-\mu)} μlnP(Dμ)=n=1Nμxn1μ1xn=n=1Nμ(1μ)xnμ
令导数等于0,得
μ M L = 1 N ∑ n = 1 N x n \mu_{ML}=\frac{1}{N}\sum_{n=1}^Nx_n μML=N1n=1Nxn
m m m为N次独立重复试验中 x = 1 x=1 x=1出现的次数,则
μ M L = m N \mu_{ML}=\frac{m}{N} μML=Nm
二项分布给出了 N N N次伯努利试验中出现了 m m m x = 1 x=1 x=1的概率质量函数:
B i n ( m ∣ N , μ ) = ( m N ) μ m ( 1 − μ ) N − m , m = 1 , 2 , … , N Bin(m|N,\mu)=(^N_m)\mu^m(1-\mu)^{N-m}, m=1,2,\ldots,N Bin(mN,μ)=(mN)μm(1μ)Nm,m=1,2,,N
其中 ( m N ) = N ! m ! ( N − m ) ! (^N_m)=\frac{N!}{m!(N-m)!} (mN)=m!(Nm)!N!为二项式系数。
二项分布的均值为 E [ x ] = ∑ m = 0 N m B i n ( x ∣ N , μ ) = N μ E[x]=\sum_{m=0}^NmBin(x|N,\mu)=N\mu E[x]=m=0NmBin(xN,μ)=Nμ
方差为 v a r [ x ] = N μ ( 1 − μ ) var[x]=N\mu(1-\mu) var[x]=Nμ(1μ)
N = 1 N=1 N=1时二项分布变为伯努利分布,当 N N N很大时近似为高斯(?见PRML686页)。二项分布关于 μ \mu μ的共轭先验是 b e t a beta beta分布。

beta分布

共轭先验:如果后验分布与先验分布属于同类,则先验分布与后验分布称为共轭分布(conjugate distributions),先验分布称为共轭先验(conjugate prior)。
B e t a ( μ ∣ a , b ) = Γ ( a + b ) Γ ( a ) + Γ ( b ) μ a − 1 ( 1 − μ ) b − 1 , 0 ≤ μ ≤ 1 Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1},0\leq \mu \leq 1 Beta(μa,b)=Γ(a)+Γ(b)Γ(a+b)μa1(1μ)b1,0μ1
其中 Γ \Gamma Γ是gamma函数, Γ ( x ) = ∫ 0 ∞ μ x − 1 e − μ d μ \Gamma(x)=\int_0^\infty \mu^{x-1}e^{-\mu}d\mu Γ(x)=0μx1eμdμ,满足 Γ ( x + 1 ) = x Γ ( x ) \Gamma(x+1)=x\Gamma(x) Γ(x+1)=xΓ(x) Γ ( 0 ) = 1 \Gamma(0)=1 Γ(0)=1。当x为自然数时 Γ ( x ) = ( x − 1 ) ! \Gamma(x)=(x-1)! Γ(x)=(x1)!
beta分布满足 ∫ 0 ∞ B e t a ( μ ∣ a , b ) d μ = 1 \int_0^\infty Beta(\mu|a,b)d\mu=1 0Beta(μa,b)dμ=1
beta分布的均值 E [ μ ] = a a + b E[\mu]=\frac{a}{a+b} E[μ]=a+ba
方差 V a r [ μ ] = a b ( a + b ) 2 ( a + b + 1 ) Var[\mu]=\frac{ab}{(a+b)^2(a+b+1)} Var[μ]=(a+b)2(a+b+1)ab
后验概率: p ( μ ∣ m , l , a , b ) ∝ μ a + m − 1 ( 1 − μ ) b + l − 1 p(\mu|m,l,a,b)\propto \mu^{a+m-1}(1-\mu)^{b+l-1} p(μm,l,a,b)μa+m1(1μ)b+l1,其中 l = N − m l=N-m l=Nm
这是另一个beta分布,写成标准形式为:
p ( μ ∣ m , l , a , b ) = Γ ( a + m + b + l ) Γ ( a + m ) Γ ( b + l ) μ a + m − 1 ( 1 − μ ) b + l − 1 p(\mu|m,l,a,b) =\frac{\Gamma(a+m+b+l)}{\Gamma(a+m)\Gamma(b+l)} \mu^{a+m-1}(1-\mu)^{b+l-1} p(μm,l,a,b)=Γ(a+m)Γ(b+l)Γ(a+m+b+l)μa+m1(1μ)b+l1
即二项分布的共轭先验beta分布通过 a → a + m a \to a+m aa+m b → b + l b \to b+l bb+l得到后验分布。
如果二项分布的先验分布是beta分布,则其后验分布也为beta分布,两者构成共轭分布。作为先验分布的beta分布的参数 a , b a,b a,b又称为超参数。使用共轭分布的好处是便于从先验分布计算后验分布。

多项分布(multinomial)

单次试验: p ( x ∣ μ ) = ∏ k = 1 K μ k x k p(x|\mu)=\prod_{k=1}^K\mu_k^{x_k} p(xμ)=k=1Kμkxk
其中 μ k ≥ 0 \mu_k \ge 0 μk0 ∑ k = 1 K μ k = 1 \sum_{k=1}^K \mu_k=1 k=1Kμk=1
N次试验: D = { x 1 , … , x N } D=\{x_1,\ldots,x_N\} D={x1,,xN}
p ( D ∣ x ) = ∏ n = 1 N ∏ k = 1 K μ k x n k = ∏ k = 1 K μ k ∑ n x n k = ∏ k = 1 K μ k m k p(D|x)=\prod_{n=1}^N \prod_{k=1}^K\mu_k^{x_nk}=\prod_{k=1}^K\mu_k^{\sum_n x_nk}=\prod_{k=1}^K\mu_k^{m_k} p(Dx)=n=1Nk=1Kμkxnk=k=1Kμknxnk=k=1Kμkmk,其中 m k = ∑ n x n k m_k=\sum_n x_{nk} mk=nxnk,表示 x k = 1 x_k=1 xk=1出现的次数,这也是多项分布的充分统计量。
为了从观察值中估计多项分布的参数,这里构造带限制条件 ∑ k = 1 K μ k = 1 \sum_{k=1}^K\mu_k=1 k=1Kμk=1的拉格朗日函数:
L ( μ 1 , … , μ K , λ ) = p ( D ∣ x ) + λ ( ∑ k = 1 K − 1 ) L(\mu_1,\ldots,\mu_K,\lambda)=p(D|x)+\lambda (\sum_{k=1}^K-1) L(μ1,,μK,λ)=p(Dx)+λ(k=1K1)
= ∏ k = 1 K μ k m k + λ ( ∑ k = 1 K − 1 ) =\prod_{k=1}^K\mu_k^{m_k}+\lambda (\sum_{k=1}^K-1) =k=1Kμkmk+λ(k=1K1)
取对数得:
l n L ( μ 1 , … , μ K , λ ) = ∑ k = 1 K m k l n u k + λ ( ∑ k = 1 K − 1 ) lnL(\mu_1,\ldots,\mu_K,\lambda)=\sum_{k=1}^K m_klnu_k+\lambda (\sum_{k=1}^K-1) lnL(μ1,,μK,λ)=k=1Kmklnuk+λ(k=1K1)
u k u_k uk求导得:
∂ l n L ( μ 1 , … , μ K , λ ) ∂ μ k = ∑ k = 1 K m k μ k + λ \frac{\partial lnL(\mu_1,\ldots,\mu_K,\lambda)}{\partial \mu_k}=\sum_{k=1}^K\frac{m_k}{\mu_k}+\lambda μklnL(μ1,,μK,λ)=k=1Kμkmk+λ
令上式=0,得:
μ k = − m k λ \mu_k=-\frac{m_k}{\lambda} μk=λmk
将上式带入 ∑ k = 1 K μ k = 1 \sum_{k=1}^K\mu_k=1 k=1Kμk=1得:
∑ k = 1 K − m k λ = − ∑ k = 1 K m k λ = 1 \sum_{k=1}^K-\frac{m_k}{\lambda}=-\frac{\sum_{k=1}^K m_k}{\lambda}=1 k=1Kλmk=λk=1Kmk=1
λ = − ∑ k = 1 K m k = − N \lambda=-\sum_{k=1}^K m_k=-N λ=k=1Kmk=N
则参数 μ \mu μ的最大似然估计 μ k M L = m k M \mu_k^{ML}=\frac{m_k}{M} μkML=Mmk
多项分布: M u l t i ( m 1 , m 2 , … , m K ∣ μ , N ) = ( m 1 m 2 … m K N ) ∏ k = 1 K μ k m k Multi(m_1,m_2,\ldots,m_K|\mu,N)=(_{m_1m_2\ldots m_K}^N)\prod_{k=1}^K\mu_k^{m_k} Multi(m1,m2,,mKμ,N)=(m1m2mKN)k=1Kμkmk,其中 ( m 1 m 2 … m K N ) = ( m 1 ! m 2 ! … m K ! N ! ) (_{m_1m_2\ldots m_K}^N)=(^{N!}_{m_1!m_2!\ldots m_K!}) (m1m2mKN)=(m1!m2!mK!N!)是多项式参数,满足 ∑ k = 1 K m k = N \sum _{k=1}^Km_k=N k=1Kmk=N
多项分布是一种多元离散随机变量的概率分布,是二项分布的扩展。假设重复进行n次独立随机试验,每次实验可能出现的结果有k种,第i种结果出现的概率为 μ i \mu_i μi,第 i i i种结果出现的次数为 m i m_i mi。如果用随机变量 X = ( X 1 , X 2 , … , X K ) X=(X_1,X_2,\ldots,X_K) X=(X1,X2,,XK)表示试验所有可能出现的次数,其中 X i X_i Xi表示第 i i i种结果出现的次数,那么随机变量 X X X服从多项分布。

Dirichlet分布

若多元连续随机变量 μ ⃗ = ( μ 1 , … , μ K ) \vec\mu=(\mu_1,\ldots,\mu_K) μ =(μ1,,μK)的概率密度函数为
p ( μ ∣ α ) = Γ ( α 0 ) Γ ( α 1 ) … Γ ( α K ) ∏ k = 1 K μ k α k − 1 p(\mu | \alpha)=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\ldots\Gamma(\alpha_K)}\prod_{k=1}^K \mu_k^{\alpha_k-1} p(μα)=Γ(α1)Γ(αK)Γ(α0)k=1Kμkαk1
其中 ∑ k = 1 K α k = 1 \sum_{k=1}^K\alpha_k=1 k=1Kαk=1 α 0 = ∑ k = 1 K α k \alpha_0=\sum_{k=1}^K \alpha_k α0=k=1Kαk
则称随机变量 μ \mu μ服从参数为 α \alpha α的狄利克雷分布,记作 μ ∼ D i r ( α ) \mu \thicksim Dir(\alpha) μDir(α)
狄利克雷分布作为多项分布的先验分布时,其后验概率:
p ( μ ∣ D , α ) ∝ p ( D ∣ μ ) p ( μ ∣ α ) ∝ ∏ k = 1 K μ k α k + m k − 1 p(\mu|D,\alpha) \propto p(D|\mu)p(\mu|\alpha) \propto \prod_{k=1}^K \mu_k^{\alpha_k+m_k-1} p(μD,α)p(Dμ)p(μα)k=1Kμkαk+mk1
这是另一个Dirichlet分布,写成标准的形式为:
p ( μ ∣ D , α ) = D i r ( μ ∣ α + m ) = Γ ( α 0 + N ) Γ ( α 1 + m 1 ) … Γ ( α K + m K ) ∏ k = 1 K μ k α k + m k − 1 p(\mu|D,\alpha)=Dir(\mu |\alpha+m)=\frac{\Gamma(\alpha_0+N)}{\Gamma(\alpha_1+m_1)\ldots\Gamma(\alpha_K+m_K)}\prod_{k=1}^K \mu_k^{\alpha_k+m_k-1} p(μD,α)=Dir(μα+m)=Γ(α1+m1)Γ(αK+mK)Γ(α0+N)k=1Kμkαk+mk1
如果多项分布的先验分布是狄利克雷分布,则其后验分布也为一个狄利克雷分布,两者构成共轭分布。作为先验分布的狄利克雷分布的参数 α \alpha α又称为超参数。狄利克雷后验分布的参数等于狄利克雷先验分布的参数 α = ( α 1 , α 2 , … , α K ) \alpha=(\alpha_1,\alpha_2,\ldots,\alpha_K) α=(α1,α2,,αK)加上多项分布的观测计数 m = ( m 1 , m 2 , … , m K ) m=(m_1,m_2,\ldots,m_K) m=(m1,m2,,mK)

总结

  • 伯努利分布是二元离散随机变量单次试验的结果
  • 二项分布是对二元离散随机变量进行N次独立重复试验的结果
  • 贝塔分布是二项分布的共轭先验
  • 类别分布是多元离散随机变量单次试验的结果
  • 多项分布是二项分布扩展到多元离散随机变量的结果,也是类别分布重复N次的结果
  • 狄利克雷分布是多项分布的共轭先验,也是贝塔分布从二元连续随机变量扩展到多元连续随机变量的结果
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值