LDA主题模型

最新推荐文章于 2024-04-14 22:54:11 发布

serenysdfg

最新推荐文章于 2024-04-14 22:54:11 发布

阅读量797

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/serenysdfg/article/details/105377949

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

LDA是一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

LDA最初被用来解决文本分类问题，本质上它是一个生成方法。比之前谈到的简单生成模型复杂，它假设了一篇文本、一个文本库的生成模型，然后从这个定义好的模型出发，通过机器学习的方法，学习这个模型的参数。最终，再根据这个学习到的模型来对每个词所属主题进行分类。它提出的实际上是一种以概率图模型为基础提取特征的方法

应用到推荐系统中：比如使用 LDA将用户查询的词汇对应到话题的维度，再推荐与该话题相关的内容。或者将文章映射到话题的维度，获得相似话题的文章，直接在这些文章的集合中进行推荐

实际上，LDA 的模型是贝叶斯网络的延伸——它的节点变成了概率分布，甚至控制概率分布的分布

知道理解LDA，可以分为下述5个步骤：

一个函数：gamma函数
四个分布：二项分布、多项分布、beta分布、Dirichlet分布
一个概念和一个理念：共轭先验和贝叶斯框架
两个模型：pLSA、LDA
一个采样：Gibbs采样

在LDA模型中，一篇文档生成的方式如下：

1从狄利克雷分布中取样生成文档 i 的主题分布； 2从主题的多项式分布中取样生成文档i第 j 个词的主题

3从狄利克雷分布中取样生成主题对应的词语分布； 4从词语的多项式分布中采样最终生成词语

5类似Beta分布是二项式分布的共轭先验概率分布；6狄利克雷分布（Dirichlet分布）是多项式分布的共轭先验概率分布。

LLDA

LLDA比较适合多标签的分类问题（本身它也是基于这个角度提出的）。原因是，LLDA在应用于监督学习的时候，与LDA的区别只在于将文档由所有topic的混合分布修改为了该文档的lables的混合分布，Dirichlet的α参数也有原来的K（topic个数）维降到了Md（文档的label个数）维。但是，当每个文档都只有一个label的时候，也就是说相当于每个文档只有一个topic，此时，doc-topic不再是多项式分布，先验也不适合用Dirichlet了。LDA的单文档对应多topic的假设就没用了。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
LDA主题模型

LDA是一种主题模型，它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题（分布）出来后，便可以根据主题（分布）进行主题聚类或文本分类。同时，它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。知道理解LDA，可以分为下述5个步骤：一个函数：gam...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。