一、 数学基础
*** 二项分布***
二项分布为N重伯努利分布,则事件成功k次的概率可表示为:
*** 多项分布 ***
多项分布是二项分布在高维度上的推广:
*** Beta分布 ***
其中,
,满足
。
为Gamma函数,积分表示为:
*** Dirichlet分布 ***
Dirichlet分布是Beta分布在高维度上的推广:
其中,
,
为Gamma函数。
当
取相同值时,称为对称Dirichlet分布。此时,只有一个参数
,称为Concentration Parameter (聚集参数)。参数
越大主题越鲜明,越小主题越分散。
*** 共轭先验分布***
根据贝叶斯定理,可以得到如下公式。由于
仅与
有关,并且仅起到归一化作用,因此最优化参数时可以不考虑。
表示后验分布,
表示似然函数,
表示先验分布。
当先验分布
和后验分布
满足同样的分布律时,先验分布
和后验分布
称为共轭分布。同时,先验分布
叫做似然函数
的共轭先验分布。
*** Beta-Binomial 共轭 ***
Beta分布为:
二项分布为:
如果二项分布 * Beta分布得到的后验分布仍然为Beta分布,则说明Beta分布和二项分布满足共轭关系,Beta分布为二项分布的共轭先验分布。证明如下:
根据上述推导,可以看出计算得到的后验分布
服从Beta分布。
***Dirichlet-Multinomial 共轭***
Dirichlet分布为:
多项分布为:
如果多项分布 * Dirichlet分布得到的后验分布仍然为Dirichlet分布,则说明Dirichlet分布和多项分布满足共轭关系,Dirichlet分布为多项分布的共轭先验分布。证明如下:
其中,
,
根据上述推导,可以看出计算得到的后验分布
服从Dirichlet分布。
***Beta / Dirichlet 分布的一个重要性质***
如果