LDA模型参数设置，训练效果较好

最新推荐文章于 2023-01-02 22:05:03 发布

无喔我

最新推荐文章于 2023-01-02 22:05:03 发布

阅读量8.1k

点赞数 4

分类专栏： NLP 中文数据处理文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/qq_43723172/article/details/123021439

版权

NLP 同时被 2 个专栏收录

4 篇文章

订阅专栏

中文数据处理

3 篇文章

订阅专栏

前言：写小论文用到lda主题模型，在网上找了一圈没有找到训练效果较好的模型参数示例。为了写出小论文做了很多次实验，达到了实验中最好的效果，故贴出
代码：

from gensim.models import LdaModel

lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=size_lda, alpha="auto",eta='auto',passes=20)

其中，corpus，id2word，num_topics不多解释，主要是最后设置了alpha，eta，passes。
alpha是文档-主题分布的先验。默认是symmetric，此时可以显式地为它提供一个字母数组；将其设置为’auto’，它将从数据中学习优先级。
eta是主题-词分布的先验。同上
passes是训练过程中穿过语料库的次数。默认为1，穿过次数越多效果越好（当然，过多可能会过拟合？不造）前面两个设置为auto就好，这一个需要根据你的语料库自己实验一下，可能你的语料库设置passes=10就很好了