LDA主题模型

LDA是一种主题模型,它可以将文档集 中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类。同时,它是一种典型的词袋模型,即一篇文档是由一组词构成,词与词之间没有先后顺序的关系。    此外,一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

 

LDA最初被用来解决文本分类问题,本质上它是一个生成方法。比之前谈到的简单生成模型复杂,它假设了一篇文本、一个文本库的生成模型,然后从这个定义好的模型出发,通过机器学习的方法,学习这个模型的参数。最终,再根据这个学习到的模型来对每个词所属主题进行分类。它提出的实际上是一种以概率图模型为基础提取特征的方法

应用到推荐系统中:比如使用 LDA将用户查询的词汇对应到话题的维度,再推荐与该话题相关的内容。或者将文章映射到话题的维度,获得相似话题的文章,直接在这些文章的集合中进行推荐

实际上,LDA 的模型是贝叶斯网络的延伸——它的节点变成了概率分布,甚至控制概率分布的分布

知道理解LDA,可以分为下述5个步骤:

  1. 一个函数:gamma函数
  2. 四个分布:二项分布、多项分布、beta分布、Dirichlet分布
  3. 一个概念和一个理念:共轭先验和贝叶斯框架
  4. 两个模型:pLSA、LDA
  5. 一个采样:Gibbs采样

   在LDA模型中,一篇文档生成的方式如下:

    1从狄利克雷分布中取样生成文档 i 的主题分布;  2从主题的多项式分布中取样生成文档i第 j 个词的主题

    3从狄利克雷分布中取样生成主题对应的词语分布; 4从词语的多项式分布中采样最终生成词语

5类似Beta分布是二项式分布的共轭先验概率分布;6狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布。

LLDA

LLDA比较适合多标签的分类问题(本身它也是基于这个角度提出的)。原因是,LLDA在应用于监督学习的时候,与LDA的区别只在于将文档由所有topic的混合分布修改为了该文档的lables的混合分布,Dirichlet的α参数也有原来的K(topic个数)维降到了Md(文档的label个数)维。但是,当每个文档都只有一个label的时候,也就是说相当于每个文档只有一个topic,此时,doc-topic不再是多项式分布,先验也不适合用Dirichlet了。LDA的单文档对应多topic的假设就没用了。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值