统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。
1)LDA文本建模(1-2)里应该明白的结论
- beta分布是二项式分布的共轭先验概率分布:
- “对于非负实数
和
,我们有如下关系
- “对于非负实数
------------------(1)
其中
对应的是二项分布
的计数。针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial 共轭。”
- 狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布:
- “ 把
从整数集合延拓到实数集合,从而得到更一般的表达式如下:
- “ 把
------------------(2)
针对于这种观测到的数据符合多项分布,参数的先验分布和后验分布都是Dirichlet 分布的情况,就是 Dirichlet-Multinomial 共轭。 ”
- 频率派和贝叶斯派思考问题的模式:
贝叶斯派 的观点则截然相反,他们认为待估计的 参数
2)LDA模型的基础模型:Unigram model、mixture of unigrams model,以及跟LDA最为接近的pLSA模型
统计文本建模的问题就是:追问这些观察到的语料库中的词序列是如何生成的。
2.1)Unigram Model:
假设:
和抛硬币的Binomial不同,抛V个面骰子的实验应该对应Mulitnomial,
。
则:
形象的理解是:
上图中的表示在文本中观察到的第n个词,n∈[1,N]表示该文本中一共有N个单词。加上方框表示重复,即一共有N个这样的随机变量
。其中,p和α是隐含未知变量:
- p是词服从的Multinomial分布的参数
- α是Dirichlet分布(即Multinomial分布的先验分布)的参数。
一般α由经验事先给定,p由观察到的文本中出现的词学习得到,表示文本中出现每个词的概率。
辛运的是,我们已知公式(2):------------------(2),
另外,公式(23)中的Delta表示:
2.2)Mixture of unigrams model
2.3)pLSA(Probabilistic Latent Semantic Analysis)模型
在上面的Mixture of unigrams model中,我们假定一篇文档只由一个主题生成,可实际中,一篇文章往往有多个主题,只是这多个主题各自在文档中出现的概率大小不一样。比如介绍一个国家的文档中,往往会分别从教育、经济、交通等多个主题进行介绍。那么在pLSA中,文档是怎样被生成的呢?
图形化表示为:
蛋疼:这边的p(z)是由上帝投骰子选择的,而Mixture of unigrams model中的p(z)居然没介绍是怎么来的。。。
3)LDA(Latent Dirichlet Allocation)模型
3.1)LDA简介
上面概率图可以分解为以下两个物理过程:
对于第一个物理过程:
对于第二个物理过程:
3.2)LDA参数估计
3.3)LDA模型的训练和推理