前言:写小论文用到lda主题模型,在网上找了一圈没有找到训练效果较好的模型参数示例。为了写出小论文做了很多次实验,达到了实验中最好的效果,故贴出
代码:
from gensim.models import LdaModel
lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=size_lda, alpha="auto",eta='auto',passes=20)
其中,corpus,id2word,num_topics不多解释,主要是最后设置了alpha,eta,passes。
alpha是文档-主题分布的先验。默认是symmetric,此时可以显式地为它提供一个字母数组;将其设置为’auto’,它将从数据中学习优先级。
eta是主题-词分布的先验。同上
passes是训练过程中穿过语料库的次数。默认为1,穿过次数越多效果越好(当然,过多可能会过拟合?不造)前面两个设置为auto就好,这一个需要根据你的语料库自己实验一下,可能你的语料库设置passes=10就很好了