models.LdaModel 有如下参数:
- corpus: 一组文档的语料库,是一个list of list of tuple的形式,每个list内的元素是(word_id, count)的形式,表示一个文档中每个词出现的次数。
- num_topics: 主题的数量,即 LDA 模型要学习的主题的数量。
- id2word: 一个映射,将每个词的 id 映射到该词的字符串表示。
- distributed: 布尔值,表示是否使用分布式处理。
- chunksize: 在分布式处理时使用的块大小。
- passes: 在拟合模型时要执行的迭代次数。
- update_every: 在拟合模型时,多长时间后执行一次权重更新。
- alpha: 主题的分布的先验参数。
- eta: 词的分布的先验参数。
- decay: 在每次迭代时,更新过时的参数的衰减因子。
- offset: 一个常量,用于调整平滑参数。
- eval_every: 在训练模型时,多长时间后评估一次模型。
- iterations: 在拟合模型时要执行的迭代次数。
- gamma_threshold: 在拟合模型时,要使用的最小 gamma 值。
- random_state: 随机数生成器的种子。
注意:参数的名称和顺序可能与实际不同,请参阅文档以获取最新信息。