考虑有 K 个状态的问题。
我们用一个
例如 x=(0,0,1,0,0,0)T 表示 K=6 的第 3 个状态。
这些向量都满足
假设 xk=1 的概率为 μk ,则 x 的分布为:
其中 μ=(μ1,…,μK)T ,且满足 μk≥0,∑jμk=1 。
这可以看成是伯努利分布的一般化表示。为了验证它是概率分布,我们有
均值为
最大似然估计
考虑一组 i.i.d. 的观测数据 D=(x1,…,xN) ,其似然函数为
其中
表示出现 xk=1 的次数,这些也是这个分布的充分统计量。
在 ∑Kk=1μk=1 的约束条件下,为了最大化对数似然,我们考虑它的拉格朗日函数:
对 μk 的偏导设为 0 ,有:
带入约束条件得到:
即 xk=1 在观测数据中所占的比例。
如果只考虑
m1,…,mK
,那么我们可以定义多项分布(multinomial distribution
):
其中:
以及
狄利克雷分布
与二元分布类似,我们要给多元分布引入一个先验分布。考虑多元分布的形式,为了满足共轭性,先验分布应该满足这样的形式:
其中 0≤μk≤1,∑kμk=1 , α=(α1,…,αK)T 是先验分布的参数。
事实上, μk 的分布是一个 K−1 的单纯形。
归一化这个分布,我们可以得到
其中
这个分布叫做狄利克雷分布(Dirichlet distribution
)。
使用狄利克雷分布作为先验,后验分布为:
由共轭性,我们可以得到后验分布也是个狄利克雷分布:
其中 m=(m1,…,mK)T 。
与二项分布类似,我们也可以将 ak 看成 xk=1 的一个有效观测次数。
二项分布可以看出是多项分布 K=2 的特殊情况。