将二元分布的二元情况扩展到多元,即可得到对应的多元分布。
首先先将伯努利分布扩展到多元假设对于离散变量 x x,可能有 K K个取值,那么 x x一次的观测值被表示为一个向量,且满足 ∑Kk=1xk=1 ∑k=1Kxk=1,仅有一个维的值为 1 1,其它都为 0 0。 故 x x的概率质量函数为:
μ μ也为一个 K K维向量。且$p(x{k}=1)=\mu_k ,\sum{k=1}^K\mu_k=1$。对应的方差为
经过 N N次观察得到数据集 D D,则对应的似然函数为
其中 mk=∑nxnk mk=∑nxnk表示观测 N N次,其中观测值为第 k k个的次数。它也是该分布的充分估计量。通过最大似然法估计 μ μ,考虑到似然函数和 μ μ的约束,所以利用了拉格朗日乘子法:
∑kmklnμk+λ∑Kk=1(μk−1) ∑kmklnμk+λ∑k=1K(μk−1).
通过对上式求导可得
由 ∑Kk=1μk=1 ∑k=1Kμk=1,可得 λ=−N λ=−N,所以 μk=mkN μk=mkN。
m1,m2,…,mK m1,m2,…,mK的分布即为multinomial分布,paf为:
和Beta分布相同,狄利克雷分布也是在多元情况下用来描述 μ μ的先验分布,所以它也具有共轭性质,具有和似然函数相同的形式,它的pdf为:
上式中 a0=∑Kk=1ak a0=∑k=1Kak。 a a也是一个向量,它是描述狄利克雷分布的超参数。
将似然概率和先验概率相乘,可得
可知后验概率仍旧是狄利克雷分布,故可得 p(μ|D,a)=Dir(μ|a)=Γ(a0+N)Γ(a1+m1)...Γ(aK+mK)ΠKk=1μak+mk−1k p(μ|D,a)=Dir(μ|a)=Γ(a0+N)Γ(a1+m1)...Γ(aK+mK)Πk=1Kμkak+mk−1
可以将 ak ak视为对于 xk=1 xk=1的次数的简单的先验估计。
from: http://bucktoothsir.github.io/blog/2015/11/17/multinomialanddirichlet/