这里有两类文本, 一类是讲环保环境的, 一类是将经济建设的
from gensim.corpora import Dictionary
from gensim.models.ldamodel import LdaModel
from gensim import models
texts = [['社会', '经济', '发展', '国民经济', '各行各业'],
['环境影响', '评价', '城市', '建设项目', '环保'],
['监管', '标准', '手段', '近几年', '雾', '霾'],
['日益严重', '国家', '环保', '重视', '情况', '环境影响'],
['强化', '科研', '产业'],
['发展', '领域', '产能']]
# id => 词 的字典
dct = Dictionary(texts)
dct[2], dct[3]
# 每个字在corpus中的id 和 词频 相当于tf
corpus = [dct.doc2bow(text) for text in texts]
corpus[:2]
# 相当于求出了tfidf
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
corpus_tfidf[0], corpus_tfidf[1]
# 这里传进去的数据既可以是tf 也可以是idf
lda = LdaModel(corpus_tfidf, num_topics=2, id2word=dct)
lda.print_topics(num_topics=2, num_words=3)
lda = LdaModel(corpus, num_topics=2, id2word=dct)
lda.print_topics(num_topics=2, num_words=3)
参考了 https://blog.csdn.net/Guo_ya_nan/article/details/101274609