统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。
1)LDA文本建模(1-2)里应该明白的结论
- beta分布是二项式分布的共轭先验概率分布:
- “对于非负实数和,我们有如下关系
------------------(1)
其中对应的是二项分布的计数。针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial 共轭。”
- 狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布:
- “ 把从整数集合延拓到实数集合,从而得到更一般的表达式如下:
------------------(2)
针对于这种观测到的数据符合多项分布,参数的先验分布和后验分布都是Dirichlet 分布的情况,就是 Dirichlet-Multinomial 共轭。 ”
- 频率派和贝叶斯派思考问题的模式:
贝叶斯派 的观点则截然相反,他们认为待估计的 参数是随机变量,服从一定的分布 ,而样本X 是固定的,由于样本是固定的,所以他们重点研究的是参数 的分布。他们的思维模式是: 先验分布 + 样本信息