Python+gensim【中文LDA】简洁模型

0、原理

  • LDA文档主题生成模型,也称三层贝叶斯概率模型,包含词、主题和文档三层结构。
    利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。
    在这里插入图片描述

  • gensim流程
    gensim

1、代码实现

from gensim import corpora, models
import jieba.posseg as jp, jieba
# 文本集
texts = [
    '美国教练坦言,没输给中国女排,是输给了郎平' * 99,
    '美国无缘四强,听听主教练的评价' * 99,
    '中国女排晋级世锦赛四强,全面解析主教练郎平的执教艺术' * 99,
    '为什么越来越多的人买MPV,而放弃SUV?跑一趟长途就知道了' * 99,
    '跑了长途才知道,SUV和轿车之间的差距' * 99,
    '家用的轿车买什么好' * 99]
# 分词过滤条件
jieba.add_word('四强', 9, 'n')
flags = ('n', 'nr', 'ns', 'nt', 'eng', 'v', 'd')  # 词性
stopwords = ('没', '就', '知道', '是', '才', '听听', '坦言'
评论 51
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小基基o_O

您的鼓励是我创作的巨大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值