LDA原论文的部分解读

最新推荐文章于 2022-06-26 12:06:10 发布

chemical_romance

最新推荐文章于 2022-06-26 12:06:10 发布

阅读量1.9k

点赞数 1

分类专栏：机器学习文章标签： LDA Mixture Distribution pLSI

本文链接：https://blog.csdn.net/u013166160/article/details/18183169

版权

本文深入解读LDA模型，对比LSI和pLSI，解释LDA如何通过生成模型解决文本表示问题。此外，介绍了LDA的简化版——Dirichlet-multinomial clustering在tweet情感分析中的应用。

摘要由CSDN通过智能技术生成

本文主要是针对“Latent Dirichlet Allocation”部分的解读。该paper除了提出LDA，还将其与LSI，pLSI以及其他生成模型做了对比。另外它提到了LDA的一个简化版本，其实这个简化版本就足够用来做tweet的情感分析了。

Note: All snapshots and formula below come from the paper "Latent Dirichlet Allocation" 。Appreciation for their great work！

I Latent Dirichlet Allocation

文本处理中，最传统的做法是将文档用tf-idf向量表示。这里，tf-idf其实也可以看成一种降维的方法。但这种方法降维的力度比较小，而且无法体现更抽象的含义。因此，后续出现了LSI，它对term-document矩阵进行奇异值分解。降维的效果是好了，但LSI没有对应的generative(生成)模型，而且SVD的复杂度是O(N^3)。后来，Hofmann提出一个概率上的生成模型pLSI。其公式如下：

其中，每个word来自一个mixture model。Mixture Component是latent topic概率上的表示p(w|z)——即不同的topic下，每个word出现的频率也是不一样的。 Mixture Weight是p(z|d)，它表示每篇文章有不同的topic distribution。可见在pLSA中，一篇文章可以是多个topic的混合，表现为不同单词可以来自不同的topic。