“主题模型”与“隐语义模型”的关系:
在项亮的《推荐系统实战》中曾提到:隐语义模型(Latent-Factor Model,以下简称LFM)的算法最早是在文本挖掘领域被提出来的,用于找出文本的隐含语义。而在文本挖掘领域,主题模型(Topic Model,以下简称TM)正是用于找出文本中的隐含主题。由此可以推断LFM是由TM演变而来,TM是文本挖掘领域的专有名词,而LFM是推荐系统领域的专有名词,但其算法思想却是一致的。
一、
pLSA是用一个生成模型来建模文章的生成过程。
- 假设有K个主题,M篇文章;对语料库中的任意文章d,假设该文章有N个词,则对于其中的每一个词,我们首先选择一个主题z,然后在当前主题的基础上生成一个词w。
- 生成主题z和词w的过程遵照一个确定的概率分布。
- 设在文章 d d d 中生