0、原理
-
LDA文档主题生成模型,也称三层贝叶斯概率模型,包含词、主题和文档三层结构。
利用文档中单词的共现关系来对单词按主题聚类,得到“文档-主题”和“主题-单词”2个概率分布。
-
gensim流程
1、代码实现
from gensim import corpora, models
import jieba.posseg as jp, jieba
# 文本集
texts = [
'美国教练坦言,没输给中国女排,是输给了郎平' * 99,
'美国无缘四强,听听主教练的评价' * 99,
'中国女排晋级世锦赛四强,全面解析主教练郎平的执教艺术' * 99,
'为什么越来越多的人买MPV,而放弃SUV?跑一趟长途就知道了' * 99,
'跑了长途才知道,SUV和轿车之间的差距' * 99,
'家用的轿车买什么好' * 99]
# 分词过滤条件
jieba.add_word('四强', 9, 'n')
flags = ('n', 'nr', 'ns', 'nt', 'eng', 'v', 'd') # 词性
stopwords = ('没', '就', '知道', '是', '才', '听听', '坦言'