gensim.models.LdaModel建立新闻的LDA模型并测试，附代码和文本数据

最新推荐文章于 2024-07-16 15:14:07 发布

锅巴QAQ

最新推荐文章于 2024-07-16 15:14:07 发布

阅读量8.3k

点赞数 7

分类专栏： NLP自然语言处理文章标签： python nlp gensim LDA

本文链接：https://blog.csdn.net/Pit3369/article/details/104608947

版权

本文介绍了如何使用gensim库构建LDA主题模型，对2262条新闻数据进行预处理和分类，涉及体育、娱乐、家居、教育、房产等类别。通过LDA模型得到五个主题的单词分布，并展示了平均主题一致性得分。

摘要由CSDN通过智能技术生成

参考

https://github.com/DengYangyong/LDA_gensim

文本数据

新闻数据：news_train.txt
预处理后文本：news_train_jieba.txt
stopwords停用词：news_stopwords.txt
测试数据：news_test.txt
数据在上面的参考github的data目录下。
链接：https://pan.baidu.com/s/1emmCSJXeGSkOJhKvkguLmg ，提取码：c9vw

模型建立

2262条新闻，分为体育、娱乐、家居、教育、房产，5类，最终得到55759个特征词

lda = models.LdaModel(corpus=corpus, id2word=dictionary.id2token,
num_topics=num_topics,iterations = 400,chunksize = 2262,passes = 40)
topic_list = lda.print_topics(5)
得到：
5个主题的单词分布为：

(0, ‘0.012*“企业” + 0.012*“产品” + 0.010*“品牌” + 0.010*“市场” + 0.009*“家具” +
0.009*“消费者” + 0.008*“家居” + 0.008*“橱柜” + 0.008*“行业” + 0.007*“中国”’)

(1, ‘0.009*“房地产” + 0.007*“市场” + 0.006*“中国” + 0.006*“考试” + 0.006*“四六级” +
0.005*“信息” + 0.005*“项目” + 0.005*“平米” + 0.005*“房价” + 0.004*“户型”’)

(2, ‘0.013*“比赛” + 0.008*“球队” + 0.007*“热火” + 0.006*“球员” + 0.005*“时间” +
0.005*“湖人” + 0.005*“防守” + 0.005*“季后赛” + 0.005*“新浪” + 0.005*“詹姆斯”’)

(3, ‘0.012*“电影” + 0.008*“影片” + 0.006*“导演” + 0.005*“娱乐” + 0.004*“新浪” +
0.004*“上映” + 0.004*“最佳” + 0.004*“奥斯卡” + 0.004*“票房” + 0.004*“观众”’)

(4, ‘0.009*“装修” + 0.005*“活动” + 0.004*“中国” + 0.004*“公司” + 0.004*“红星” +
0.003*“设计” + 0.003*“业主” + 0.003*“设计师” + 0.003*“美凯龙” + 0.003*“产品”’)

得到的平均主题一致性：-2.1734.
2020-03-02 11:35:23,557 : INFO : CorpusAccumulator accumulated stats from 1000 documents
2020-03-02 11:35:23,712 : INFO : CorpusAccumulator accumulated stats from 2000 documents
Average topic coherence: -2.1734.

家居：企业,产品,品牌,市场,家具,消费者,家居,橱柜,行业,中国
教育：房地产,市场,中国,考试,四六级,信息,项目,平米,房价,户型
体育：比赛,球队,热火,球员,时间,湖人,防守,季后赛,新浪,詹姆斯
娱乐：电影,影片,导演,娱乐,新浪,上映,最佳,奥斯卡,票房,观众
房地产：装修,活动,中国,公司,红星,设计,业主,设计师,美凯龙,产品

测试新闻数据

从体育、娱乐、科技三个主题方面测试：

测试结果：

在这里插入图片描述

代码

import jieba,os,re
from gensim import corpora, models, similarities
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# 停用词文档
stopwords_path = "G:/1研究生/news_stopwords.txt"

 # 原始新闻文档：体育、娱乐、家居、教育、房产，5类