LDA(Latent Dirichlet Allocation)主题模型算法

LDA(Latent Dirichlet Allocation)是一种主题模型,通过文档集合和单词序列训练出文档对应主题的概率分布θ和主题生成单词的概率分布φ。算法通过迭代过程不断调整θ和φ,直到收敛,用于挖掘文本中的隐藏主题。
摘要由CSDN通过智能技术生成
LDA(Latent Dirichlet Allocation)主题模型算法 

LDA整体流程
先定义一些字母的含义:
  • 文档集合D,topic集合T
  • D中每个文档d看作一个单词序列< w1,w2,...,wn >,wi表示第i个单词,设d有n个单词。(LDA里面称之为word bag,实际上每个单词的出现位置对LDA算法无影响)
  • D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC

LDA以文档集合D作为输入(会有切词,去停用词,取词干等常见的预处理,略去不表),希望训练出的两个结果向量(设聚成k个Topic,VOC中共包含m个词):

  • 对每个D中的文档d,对应到不同topic的概率θd < p
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值