LDA主题模型小结

LDA可以看做如何由单词生成主题,生成的过程分为两步,首先,将每一篇文档视为多个主题在单词上的分布,也就是每篇文档是由多个主题按照不同的比例混合而成,而每个话题可以由代表性的词语来表示,比如,雾霾这个话题,与其相关的词语有北京,PM2.5,呼吸等,具有相同分布的文档统计出来有多少,这个数目又满足一定的分布,这个分布就是Dirichlet分布;接下来按分布概率模型(参数确定参考Gibbs Sampling)选定一个主题,再在每篇文档的这个主题中选择一个单词(按Multinormal分布模型),所有选择的单词组成了这个话题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值