![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
lda算法原理
ixtgtg
这个作者很懒,什么都没留下…
展开
-
LDA主题模型-方差推断
Variance Inference判断两个文档的相似性,不只是看出现的单词数目,有时不会出现相同的单词,这时要分析共同的主题,引入隐变量w, P=V*W,已知给定的概率p(词语|文档),求p(词语|主题) ,p(主题|文档)。引入概率图模型,设符合Dirichlet分布,P(θ|α)∼∏i=1kΓ(αi)Γ(Σαi)∏i=1kθαi−1diP(\theta|\alpha)\sim\frac{原创 2018-01-21 14:28:00 · 625 阅读 · 0 评论 -
LDA主题模型-TFIDF
TFIDF是由两部分组成,一部分是TF(Token Frequency),表示一个词在文档中出现的次数,即词频。另一部分是IDF(Inverse Document Frequency),表示某个词出现在多少个文本中(或者解释为有多少个文本包含了这个词),即逆向文档频率,通常由公式IDFt=log((1+|D|)/|Dt|),其中|D|表示文档总数,|Dt|表示包含关键词t的文档数量。转载 2018-01-21 17:09:16 · 3219 阅读 · 0 评论