概念主题模型简记

最新推荐文章于 2021-09-30 16:10:38 发布

小村长

最新推荐文章于 2021-09-30 16:10:38 发布

阅读量7.7k

点赞数 4

分类专栏：机器学习文章标签： plsa lda 概率主题模型

本文链接：https://blog.csdn.net/lu597203933/article/details/45933761

版权

本文简要介绍了概念主题模型（PTM）中的两个关键模型：PLSA（概率潜在语义分析）和LDA（潜在狄利克雷分配）。PLSA是LSA的改进，解决了LSA的统计学基础问题，而LDA则在PLSA的基础上引入了贝叶斯框架，通过Dirichlet分布作为先验，使得参数估计更精确。文章探讨了这两个模型的原理、优缺点以及它们在自然语言处理中的应用。

摘要由CSDN通过智能技术生成

概念主题模型(PTM, probabilitytopical model)在自然语言处理(NLP,natural language processing)中有着重要的应用。主要包括以下几个模型：LSA(latentsemantic analysis)、 PLSA(probability latent semantic analysis)、LDA(latentdirichlet allocation)和HDP(hirerachical dirichlet processing)，这里用一张图给出它们的发展历程。此记主要记录PLSA和LDA模型.

PLSA:

PLSA是在LSA的基础上发展起来的，因为LSA有以下缺点：(1)svd奇异值分解对数据的变化较为敏感，同时缺乏先验信息的植入等而显得过分机械。(2)缺乏稳固的数理统计基础(奇异值分解物理意义，如何从数学上推导得出高维降到的低维语义结构空间),此外svd分解比较耗时。基于以上两个原因，提出了PLSA(概率潜在语义结构分析)，这样我们就从概率的角度对LSA进行新的诠释，使得LSA有了稳固的统计学基础。

PLSA不关注词和词之间的出现顺序，所以pLSA是一种词袋方法(BOW：一个文档用一个向量表示，向量中元素就是一个词出现与否或者是出现次数或者TF-IDF，各个词是否出现相互独立)，具体说来，该模型假设一组共现(co-occurrence)词项关联着一个隐含的主题类别。同时定义：

P(d_i)表示海量文档中某篇文档被选中的概率。
P(w_j|d_i)表示词w_j在给定文档d_i中出现的概率。
- 怎么计算得到呢？针对海量文档，对所有文档进行分词后，得到一个词汇列表，这样每篇文档就是一个词语的集合。对于每个词语，用它在文档中出现的次数除以文档中词语总的数目便是它在文档中出现的概率P(w_j|d_i)。
P(z_k|d_i)表示具体某个主题z_k在给定文档d_i下出现的概率。
P(w_j|z_k)表示具体某个词w_j在给定主题下出现的概率z_k，与主题关系越密切的词，其条件概率P(w_j|z_k)越大。