数据挖掘（一）主题模型（Topic Modeling）

最新推荐文章于 2024-08-19 00:09:01 发布

夜里惊羽

最新推荐文章于 2024-08-19 00:09:01 发布

阅读量1.2w

点赞数 4

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cait_/article/details/89437946

版权

本文介绍了主题建模的目的，预备数学知识包括伯努利、二项、分类、多项式分布以及吉布斯采样。重点探讨了LSA和LDA模型，阐述了它们在文档分析中的应用。

摘要由CSDN通过智能技术生成

数据挖掘（一）主题模型（Topic Modeling）

1. 主题建模的目的

从文档集合中自动地找出一系列的主题（topics），每个文档集内可能有多个主题；

主题：由众多词汇的概率分布（distribution）组成；

常用模型：LDA, pLSA， pLSI等，是一种无监督的学习过程；

Input： An unorganized collection of documents;
Output: An organized collection of topics;

在生活中，完成文档的过程是：首先确定这篇文章的中心思想（topic），然后根据topics，产生一个个词语（words），最终形成文档。主题模型的过程与之相反，通过文档形成词袋，再由词袋生成topic。下图显示的是一个主题模型的简单示例，输入为两个文档，输出为5个topic，每个topic分别由多个词组成；

在这里插入图片描述

2. 预备数学知识

在这里插入图片描述

2.1 Bernoulli distribution

伯努利分布：当N=1时的二项分布的特殊情况；
在这里插入图片描述

2.2 Binomial distribution

二项分布：类似于多次抛掷硬币；

在这里插入图片描述

2.3 Categorical distribution

分类分布：抛掷一次多面骰子， $p_1+p_2+p_3+......+p_n = 1$
在这里插入图片描述
$p(x)=[x=1]p_1+[x=2]p_2+[x=3]p_3+......+[x=6]p_6$

$<$

最低0.47元/天解锁文章

关注

4
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。