LDA主题建模简单介绍

LDA(隐狄利克雷)主题建模:
是一种概率生成模型,其思想是:文档是由主题构成的,而主题是由词项构成的。主题模型地目标就是得到文档中主题分布地概率,以及主题中词项分布地概率。
以下面这个简短的文档为例:“春天来了,花儿开了,小草绿了,大树抽出了嫩芽,青蛙冬眠结束了,小鸟高兴地唱着歌。”这个文档有两个明显的主题,一个是植物相关的主题,一个是动物相关的主题。我们姑且称主题1为“植物”,主题2为“动物”。主题1包括的内容包括“花儿”、“小草”、“大树”、“开了”、“绿了”、“抽出了”、“嫩芽”,主题2的内容包括“青蛙”、“小鸟”、“冬眠”、“结束”、“高兴地”、“唱着”、“歌”。我们需要计算两个概率,文档中各主题所占的比例以及主题中各词项所占的比例。将文档进行分词后,文档格式如下:
春天/来了/花儿/开了/小草/绿了/大树/抽出了/嫩芽/青蛙/冬眠/结束/了/小鸟/高兴地/唱着/歌
此文档地词项个数为17。
p(主题i|文档)=(文档中属于主题i的词项总数目)/(文档词项总数目)
p(词项j|主题t)=(词项j)/(主题t的词项数目)
按照以上公式,我们可以得出:
p(主题1|文档)= 7/17
p(主题2|文档)= 7/17
p(花儿|主题1)= 1/7
p(小鸟|主题2)=1/7
以此类推,其他词项地概率也都可以求出。
以上是人工进行主题分类地过程,那么如果是交给计算机做这个事情应该怎么做呢?
1、首先,计算机是不知道有几个主题的,所以我们要给定主题的数目T。(按照经验等,我们可以调T的值以使最后的结果符合我们的要求。)
2、随机随机

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值