[学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis）

最新推荐文章于 2024-11-12 18:26:33 发布

hxxiaopei

最新推荐文章于 2024-11-12 18:26:33 发布

阅读量6.8w

点赞数 15

分类专栏：机器学习推荐系统自然语言处理文章标签： semantic zk 阿里巴巴文档算法电子商务

本文链接：https://blog.csdn.net/hxxiaopei/article/details/7617838

版权

本文介绍了主题模型及其在文本挖掘中的作用，特别是PLSA（概率潜在语义分析）模型。PLSA是一种通过EM算法求解的生成模型，用于揭示文档背后的隐含主题。文章详细阐述了PLSA的数学原理，包括E-step和M-step的迭代过程，并讨论了主题模型在计算文本相似性、用户聚类和推荐系统中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

from: http://www.hxxiaopei.com/?p=71

读了著名的【Google News Personalization Scalable Online CF】，提及到针对用户聚类，利用相似用户性信息计算喜欢的news。其中包含min-hash以及plsi，产生了对plsi的兴趣。

plsi是model-based 推荐算法，属于topic(aspect) model，最近研究了topic model，发现其在NLP领域用途很大。

引入：

在文本挖掘时，计算文档相似性是很基础的操作，通常，对文本进行分词，构建VSM，通过jaccard或者cosin计算距离或者相似性，这是基于corpus的思路，仅仅考虑词组，并未考虑文本的语义信息。针对下面情况，基于cropus很难处理：

*如果时间回到2006年，马云和杨致远的手还会握在一起吗

*阿里巴巴集团和雅虎就股权回购一事签署了最终协议

如果采用基于corpus的jaccard距离等算法，那么这两个文本的完全不相关，但是事实上，马云和阿里巴巴集团，杨致远和雅虎有着密切的联系，从语义上看，两者都和“阿里巴巴"有关系。

此外，另一个case：

*富士苹果真好，赶快买

*苹果四代真好，赶快买

从corpus上来看，两者非常相似，但是事实上，2个句子从语义上来讲，没有任何关系，一个是”水果“另一个是”手机"。

通过上面的例子，差不多也看出来topic model是什么以及解决什么问题。

概念：

topic model是针对文本隐含主题的建模方法，针对第一个case，马云对应的主题是阿里巴巴，阿里巴巴集团也隐含阿里巴巴主题，这样两个文本的主题匹配上，认为他们是相关的，针对第二个，分别针对水果以及手机主题，我们认为他们是不相关的。

究竟什么是主题？[接下来参考baidu搜索研发部官方博客中对语义主题的定义] 主题就是一个概念、一个方面。它表现为一系列相关的词，能够代表这个主题。比如如果是”阿里巴巴“主题，那么”马云“”电子商务“等词会很高的频率出现，而设计到”腾讯“主题，那么“马化腾”“游戏”“QQ”会以较高的频率出现。如果用数学来描述一下的话，主题就是词汇表上词语的条件概率分布，与主题密切相关的词，条件概率 p(w|z) 越大。主题就像一个桶，装了出现频率很高的词语，这些词语和主题有很强的相关性，或者说这些词语定义了这个主题。同时，一个词语，可能来自于这个桶，也可能来自那个桶，比如“电子商务”可以来自“阿里巴巴”主题，也可以来自“京东“主题，所以一段文字往往包含多个主题，也就是说，一段文字不只有一个主题。

上面介绍了主题的概念，我们最为关心的是如何得到这些主题？这就是topic model要解决的问题。

define： d表示文档，w表示词语，z表示隐含的主题。

p(w|d)=∑zp(w|z)p(z|d)