gensim.models.LdaModel建立新闻的LDA模型并测试,附代码和文本数据

本文介绍了如何使用gensim库构建LDA主题模型,对2262条新闻数据进行预处理和分类,涉及体育、娱乐、家居、教育、房产等类别。通过LDA模型得到五个主题的单词分布,并展示了平均主题一致性得分。
摘要由CSDN通过智能技术生成

参考

https://github.com/DengYangyong/LDA_gensim

文本数据

新闻数据:news_train.txt
预处理后文本:news_train_jieba.txt
stopwords停用词:news_stopwords.txt
测试数据:news_test.txt
数据在上面的参考github的data目录下。
链接:https://pan.baidu.com/s/1emmCSJXeGSkOJhKvkguLmg ,提取码:c9vw

模型建立

2262条新闻,分为体育、娱乐、家居、教育、房产,5类,最终得到55759个特征词

lda = models.LdaModel(corpus=corpus, id2word=dictionary.id2token,
num_topics=num_topics,iterations = 400,chunksize = 2262,passes = 40)
topic_list = lda.print_topics(5)
得到:
5个主题的单词分布为:

(0, ‘0.012*“企业” + 0.012*“产品” + 0.010*“品牌” + 0.010*“市场” + 0.009*“家具” +
0.009*“消费者” + 0.008*“家居” + 0.008*“橱柜” + 0.008*“行业” + 0.007*“中国”’)

(1, ‘0.009*“房地产” + 0.007*“市场” + 0.006*“中国” + 0.006*“考试” + 0.006*“四六级” +
0.005*“信息” + 0.005*“项目” + 0.005*“平米” + 0.005*“房价” + 0.004*“户型”’)

(2, ‘0.013*“比赛” + 0.008*“球队” + 0.007*“热火” + 0.006*“球员” + 0.005*“时间” +
0.005*“湖人” + 0.005*“防守” + 0.005*“季后赛” + 0.005*“新浪” + 0.005*“詹姆斯”’)

(3, ‘0.012*“电影” + 0.008*“影片” + 0.006*“导演” + 0.005*“娱乐” + 0.004*“新浪” +
0.004*“上映” + 0.004*“最佳” + 0.004*“奥斯卡” + 0.004*“票房” + 0.004*“观众”’)

(4, ‘0.009*“装修” + 0.005*“活动” + 0.004*“中国” + 0.004*“公司” + 0.004*“红星” +
0.003*“设计” + 0.003*“业主” + 0.003*“设计师” + 0.003*“美凯龙” + 0.003*“产品”’)

得到的平均主题一致性:-2.1734.
2020-03-02 11:35:23,557 : INFO : CorpusAccumulator accumulated stats from 1000 documents
2020-03-02 11:35:23,712 : INFO : CorpusAccumulator accumulated stats from 2000 documents
Average topic coherence: -2.1734.

家居:企业,产品,品牌,市场,家具,消费者,家居,橱柜,行业,中国
教育:房地产,市场,中国,考试,四六级,信息,项目,平米,房价,户型
体育:比赛,球队,热火,球员,时间,湖人,防守,季后赛,新浪,詹姆斯
娱乐:电影,影片,导演,娱乐,新浪,上映,最佳,奥斯卡,票房,观众
房地产:装修,活动,中国,公司,红星,设计,业主,设计师,美凯龙,产品

测试新闻数据

从体育、娱乐、科技三个主题方面测试:

测试结果:

在这里插入图片描述
在这里插入图片描述

代码

import jieba,os,re
from gensim import corpora, models, similarities
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

# 停用词文档
stopwords_path = "G:/1研究生/news_stopwords.txt"

 # 原始新闻文档:体育、娱乐、家居、教育、房产,5类
  • 7
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值