1. 二元分布
- x∈{0,1} ; 0<=μ<=1
Bern(x|μ)=μx(1−μ)1−x
- 设数据集合是 D={x1,...,xN} ,且每次观测都是从 p(x|μ) 中得到;则似然函数是
p(D|μ)=∏Nn=1p(xn|μ)=∏Nn=1μxn(1−μ)1−xn
=> 最大化对数似然函数,可得
- μML=1N∑Nn=1xn=mN
其中:m是正面朝上的次数
2. Beta分布
- 二项分布中正面向上的比例就是均值
- 所以小规模数据会产生过拟合现象
共轭性
- 设先验概率是: p(μ)
- 似然函数是: μx(1−μ)1−x
- 选择似然函数的共轭先验作为 P(θ) 的分布
Beta分布
- 选择先验分布是Beta分布
- beta分布和二项分布是共轭分布
- beta分布和似然函数是共轭先验
先验 | 似然 |
---|---|
高斯 | 高斯 |
Beta | 二项 |
Gamma | 高斯 |
Dirichlet | 多维正态 |
Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μ(a−1)(1−μ)(b−1)
Γ(x)=∫∞0ux−1e−udu
E[μ]=aa+b
var[μ]=ab(a+b)2(a+b+1)
其中:
a,b是超参数
Beta后验
p(μ|m,l,a,b)∝μm+a−1(1−μ)l+b+1 ………其中: l=N−m:反面朝上的个数
3. 多项分布
∑Kk=1xk=1 ; 如果 μxk 表示 xk=1 的概率, 则 x 的分布
p(x|μ)=∏k=1Kμxkk
E[x|μ]=∑xp(x|μ)x=(μ1,μ2,...,μK)T=μ
数据集分布
- N个独立观测值: x1,......,xN 的数据集 D, 似然函数是:
p(D|μ)=∏Nm=1∏Kk=1μxnkk=∏Kk=1μmkk
其中:
mk=∑nxnk
- 最大似然解
μMLk=mkN
多项式分布
Mult(m1,.....,mK|μ,N)=(Nm1m2...mK)∏Kk=1μmkk
4. Dirichlet分布
Dir(μ|α)=Γ(α0)Γ(α1)..Γ(αK)∏k=1Kμαk−1k
5. 结论
- Beta 分布, E[μ]=aa+b 超参数,可以控制 μ ;
-
Dirichlet
分布
E(p)=(α1∑Ki=1αi,α2∑Ki=1αi,...,αK∑Ki=1αi)