LDA
主题模型
_illusion_
知乎主页:https://www.zhihu.com/people/illusions-29/posts
展开
-
LDA概念辨析(词分布与关键词权重TF-IDF)
众所周知,LDA——隐狄利克雷分布作为一个“生成模型”,可以随机生成一篇文章。而我们在求一篇文章的关键词的时候,要涉及到这篇文章的主题分布和词分布。而我们进行具体的主题分布以及词分布计算的时候,我们会先将文档的词项(term)进行TF-IDF处理。我下面对TF-IDF和词分布的概念加以辨析。TF-IDF是一种衡量某一篇文档中某个词对该篇文档重要程度的计算方法。通过TF-IDF公式,我们可以计算...原创 2018-09-02 14:54:24 · 9345 阅读 · 0 评论 -
主题模型一——潜在隐语义索引(LSI/LSA)
本人在最近的学习中看到了三篇关于主题模型、关键词提取和文档相似度计算的优秀文章,一一转载于此,供主题模型初学者学习、消化。以下是正文:在文本挖掘中,主题模型是比较特殊的一块,它的思想不同于我们常用的机器学习算法,因此这里我们需要专门来总结文本主题模型的算法。本文关注于潜在语义索引算法(LSI)的原理。1. 文本主题模型的问题特点 在数据分析中,我们经常会进...转载 2018-09-03 17:21:15 · 2652 阅读 · 0 评论