统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。
1)LDA文本建模(1-2)里应该明白的结论
- beta分布是二项式分布的共轭先验概率分布:
- “对于非负实数
和
,我们有如下关系
- “对于非负实数
------------------(1)
其中
对应的是二项分布
的计数。针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial 共轭。”
- 狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布:
- “ 把
从整数集合延拓到实数集合,从而得到更一般的表达式如下:
- “ 把
------------------(2)
针对于这种观测到的数据符合多项分布,参数的先验分布和后验分布都是Dirichlet 分布的情况,就是 Dirichlet-Multinomial 共轭。 ”
- 频率派和贝叶斯派思考问题的模式:
贝叶斯派 的观点则截然相反,他们认为待估计的 参数