基于gensim的lda的小案例

最新推荐文章于 2024-04-28 13:49:58 发布

chnhbhndchngn

最新推荐文章于 2024-04-28 13:49:58 发布

阅读量705

点赞数

分类专栏：数据挖掘文章标签： lda gensim 主题模型

本文链接：https://blog.csdn.net/a857553315/article/details/107187093

版权

数据挖掘专栏收录该内容

31 篇文章 1 订阅

订阅专栏

这里有两类文本, 一类是讲环保环境的, 一类是将经济建设的

from gensim.corpora import Dictionary
from gensim.models.ldamodel import LdaModel
from gensim import models

texts = [['社会', '经济', '发展', '国民经济', '各行各业'],
        ['环境影响', '评价', '城市', '建设项目', '环保'], 
        ['监管', '标准', '手段', '近几年', '雾', '霾'], 
        ['日益严重', '国家', '环保', '重视', '情况', '环境影响'],
        ['强化', '科研', '产业'],
        ['发展', '领域', '产能']]

# id => 词 的字典
dct = Dictionary(texts)
dct[2], dct[3]

# 每个字在corpus中的id 和 词频  相当于tf
corpus = [dct.doc2bow(text) for text in texts]

corpus[:2]

# 相当于求出了tfidf
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
corpus_tfidf[0], corpus_tfidf[1]

# 这里传进去的数据既可以是tf 也可以是idf 
lda = LdaModel(corpus_tfidf, num_topics=2, id2word=dct)
lda.print_topics(num_topics=2, num_words=3)

lda = LdaModel(corpus, num_topics=2, id2word=dct)
lda.print_topics(num_topics=2, num_words=3)

参考了 https://blog.csdn.net/Guo_ya_nan/article/details/101274609

chnhbhndchngn

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
基于gensim的lda的小案例

这里有两类文本, 一类是讲环保环境的, 一类是将经济建设的from gensim.corpora import Dictionaryfrom gensim.models.ldamodel import LdaModelfrom gensim import modelstexts = [['社会', '经济', '发展', '国民经济', '各行各业'], ['环境影响', '评价', '城市', '建设项目', '环保'], ['监管', '标准', '手段'
复制链接

扫一扫

专栏目录