Python+gensim【中文LDA】简洁模型

最新推荐文章于 2025-04-27 15:04:55 发布

小基基o_O

最新推荐文章于 2025-04-27 15:04:55 发布

阅读量2.7w

点赞数 49

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/Yellow_python/article/details/83097994

版权

文章目录

0、原理
1、代码实现
2、过程详解
3、附录

0、原理

LDA文档主题生成模型，也称三层贝叶斯概率模型，包含词、主题和文档三层结构。
利用文档中单词的共现关系来对单词按主题聚类，得到“文档-主题”和“主题-单词”2个概率分布。
gensim流程

1、代码实现

from gensim import corpora, models
import jieba.posseg as jp, jieba
# 文本集
texts = [
    '美国教练坦言，没输给中国女排，是输给了郎平' * 99,
    '美国无缘四强，听听主教练的评价' * 99,
    '中国女排晋级世锦赛四强，全面解析主教练郎平的执教艺术' * 99,
    '为什么越来越多的人买MPV，而放弃SUV？跑一趟长途就知道了' * 99,
    '跑了长途才知道，SUV和轿车之间的差距' * 99,
    '家用的轿车买什么好' * 99]
# 分词过滤条件
jieba.add_word('四强', 9, 'n')
flags = ('n', 'nr', 'ns', 'nt', 'eng', 'v', 'd')  # 词性
stopwords = ('没', '就', '知道', '是', '才', '听听', '坦言'