参考
https://github.com/DengYangyong/LDA_gensim
文本数据
新闻数据:news_train.txt
预处理后文本:news_train_jieba.txt
stopwords停用词:news_stopwords.txt
测试数据:news_test.txt
数据在上面的参考github的data目录下。
链接:https://pan.baidu.com/s/1emmCSJXeGSkOJhKvkguLmg ,提取码:c9vw
模型建立
2262条新闻,分为体育、娱乐、家居、教育、房产,5类,最终得到55759个特征词
lda = models.LdaModel(corpus=corpus, id2word=dictionary.id2token,
num_topics=num_topics,iterations = 400,chunksize = 2262,passes = 40)
topic_list = lda.print_topics(5)
得到:
5个主题的单词分布为:(0, ‘0.012*“企业” + 0.012*“产品” + 0.010*“品牌” + 0.010*“市场” + 0.009*“家具” +
0.009*“消费者” + 0.008*“家居” + 0.008*“橱柜” + 0.008*“行业” + 0.007*“中国”’)
(1, ‘0.009*“房地产” + 0.007*“市场” + 0.006*“中国” + 0.006*“考试” + 0.006*“四六级” +
0.005*“信息” + 0.005*“项目” + 0.005*“平米” + 0.005*“房价” + 0.004*“户型”’)
(2, ‘0.013*“比赛” + 0.008*“球队” + 0.007*“热火” + 0.006*“球员” + 0.005*“时间” +
0.005*“湖人” + 0.005*“防守” + 0.005*“季后赛” + 0.005*“新浪” + 0.005*“詹姆斯”’)
(3, ‘0.012*“电影” + 0.008*“影片” + 0.006*“导演” + 0.005*“娱乐” + 0.004*“新浪” +
0.004*“上映” + 0.004*“最佳” + 0.004*“奥斯卡” + 0.004*“票房” + 0.004*“观众”’)
(4, ‘0.009*“装修” + 0.005*“活动” + 0.004*“中国” + 0.004*“公司” + 0.004*“红星” +
0.003*“设计” + 0.003*“业主” + 0.003*“设计师” + 0.003*“美凯龙” + 0.003*“产品”’)
得到的平均主题一致性:-2.1734.
2020-03-02 11:35:23,557 : INFO : CorpusAccumulator accumulated stats from 1000 documents
2020-03-02 11:35:23,712 : INFO : CorpusAccumulator accumulated stats from 2000 documents
Average topic coherence: -2.1734.
家居:企业,产品,品牌,市场,家具,消费者,家居,橱柜,行业,中国
教育:房地产,市场,中国,考试,四六级,信息,项目,平米,房价,户型
体育:比赛,球队,热火,球员,时间,湖人,防守,季后赛,新浪,詹姆斯
娱乐:电影,影片,导演,娱乐,新浪,上映,最佳,奥斯卡,票房,观众
房地产:装修,活动,中国,公司,红星,设计,业主,设计师,美凯龙,产品
测试新闻数据
从体育、娱乐、科技三个主题方面测试:
测试结果:
代码
import jieba,os,re
from gensim import corpora, models, similarities
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
# 停用词文档
stopwords_path = "G:/1研究生/news_stopwords.txt"
# 原始新闻文档:体育、娱乐、家居、教育、房产,5类