核心代码很简单:
import gensim
from 自己的工具类 import get_seg_content
# lda_model 为已经训练好的LDA模型
# content 为一条文本内容
def get_topic(lda_model, content):
# get_seg_content() 方法是对文本进行分词
content = get_seg_content(content)
dictionary = gensim.corpora.Dictionary([content])
corpus = dictionary.doc2bow(content) # 文档转换成bow
topics = lda_model.get_document_topics(corpus) # 得到新文档的主题分布
return topics
lda_Model可以使用这行代码读取:
lda_model = gensim.models.ldamodel.LdaModel.load('../models/lda模型位置')
content是一条文本:
content = '巴拉巴拉。。。'
根据以上的代码,可以构造符合自己项目的代码,比如content换成文本列表什么的