数据挖掘(一)主题模型(Topic Modeling)

本文介绍了主题建模的目的,预备数学知识包括伯努利、二项、分类、多项式分布以及吉布斯采样。重点探讨了LSA和LDA模型,阐述了它们在文档分析中的应用。
摘要由CSDN通过智能技术生成

数据挖掘(一)主题模型(Topic Modeling)


1. 主题建模的目的

从文档集合中自动地找出一系列的主题(topics),每个文档集内可能有多个主题;

主题:由众多词汇的概率分布(distribution)组成;

常用模型:LDA, pLSA, pLSI等,是一种无监督的学习过程;

Input: An unorganized collection of documents;
Output: An organized collection of topics;

在生活中,完成文档的过程是:首先确定这篇文章的中心思想(topic),然后根据topics,产生一个个词语(words),最终形成文档。主题模型的过程与之相反,通过文档形成词袋,再由词袋生成topic。下图显示的是一个主题模型的简单示例,输入为两个文档,输出为5个topic,每个topic分别由多个词组成;

在这里插入图片描述

2. 预备数学知识

在这里插入图片描述

2.1 Bernoulli distribution

伯努利分布:当N=1时的二项分布的特殊情况;
在这里插入图片描述

2.2 Binomial distribution

二项分布:类似于多次抛掷硬币;

在这里插入图片描述

2.3 Categorical distribution

分类分布:抛掷一次多面骰子, p 1 + p 2 + p 3 + . . . . . . + p n = 1 p_1+p_2+p_3+......+p_n = 1 p1+p2+p3+......+pn=1
在这里插入图片描述
p ( x ) = [ x = 1 ] p 1 + [ x = 2 ] p 2 + [ x = 3 ] p 3 + . . . . . . + [ x = 6 ] p 6 p(x)=[x=1]p_1+[x=2]p_2+[x=3]p_3+......+[x=6]p_6 p(x)=[x=1]p1+[x=2]p2+[x=3]p3+......+[x=6]p6

[ x = 1 ] [x=1] <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值