(一)LDA主题模型问题
问题1:一篇文章,生成乐观主题、悲观主题的概率假设独立同分布(服从伯努利分布),生成n个主题。
设生成乐观主题的概率为θ。
1.伯努利分布Bernoulli distribution
概率密度函数
2.二项式分布Binomial Distribution:多重伯努利分布
3.Gamma函数
性质:
证:
分部积分:
4.beta分布
假设θ不是常量,而是服从beta分布(分布的分布)
举例:θ取值0.3时,beta函数可计算出它的概率,即分布的分布。
5.二项式分布与beta分布的关系
θ服从beta分布(先验分布),然后再基于伯努利分布采样到某个主题xi,重复n次采样,最后计算后验分布f(θ;x)。结合贝叶斯理论:
得知:后验分布f(θ;x)和先验分布都属于相同形式的分布。
在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则先验分布与后验分布被称为共轭分布。
共轭的好处:计算多批新样本数据下的后验分布后,使之直接成为“先验”,不需要重新整体计算,只需要考虑新样本数据。
其它应用:点击率的贝叶斯平滑
问题2:一篇文章,生成K个主题的概率假设独立同分布(服从伯努利分布),生成n个主题。
设生成主题ki的概率为pi,P为生成{xi个主题ki;i=1,2,..,k}的联合概率。
6.多项式分布
7.Dirichlet分布