LDA相对于PLSA在理论上更美,并且有多种扩展,包括有监督的,松弛bag-of-word假设的,以及Sparse化的主题模型。理论上来说LDA模型的训练的参数较少,并不会随着文档集合的增加而快速变化,不容易造成over-fitting 问题,模型的范化能力也较强。PLSA训练的过程中需要学习 K×V+K×D个参数,V表示文档集合中的单词数量,D表示文档集合中的文档数量,使用EM算法来求解模型参数。这篇博客写的很详细(http://blog.tomtung.com/2011/10/plsa)
通过使用经验发现,文档较短时LDA效果并不理想。
训练模型参数时主要存在两种思路,Blei的做法是使用变分EM的方法,利用变分理论寻找后验概率的下限,通过不断提高下限来近似后验概率的最大化,学习模型参数。计算后验概率的过程中需要好似用共轭分布的特性简化过程,对CS出身的人来说看起来十分痛苦,需要很多数学知识。使用变分的方法存在一个最大的不足在于增加了模型的独立性假设,将模型修改如下
另外一种思路是使用Gibbs Sampling的方法,通过不断抽样使得MCMC收敛于一个联合概率。抽样的过程将每个文档中的每个单词所属的主题作为坐标轴,沿所有的坐标轴进行抽样。状态之间的转移概率依赖于每个单词所属的主题和每个文档包含的主题数量。Gibbs Sampling 的方法易于理解,计算速度快。由于模型中的隐含变量较多,故现有的研究方法使用collapsed Gibbs Sampling, Dirchlet 分布中的hyper-parameter 用来平滑文档特征向量和单词特征向量的,设置较小的参数值能够实现sparse 的主题分布向量。 \alpha 表示了文档之间的在语义上的不同的有多大, 而参数\beta表示了通常情况下共现的的单词集合有多大。理论上述Blei提出的LDA模型和基于Gibbs Sampling的LDA模型对应的概率图模型并不完全一致。