lda主题模型的可视化_Gensim LDA主题模型实验

最新推荐文章于 2023-04-26 11:55:57 发布

清水荷叶粥

最新推荐文章于 2023-04-26 11:55:57 发布

阅读量1.6k

点赞数

文章标签： lda主题模型的可视化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42300956/article/details/112831727

版权

本文通过gensim库分别对wiki语料和Sogou新闻语料进行LDA主题模型实验。在wiki实验中，展示了如何从原始文本到模型训练的过程，并使用make_wiki脚本处理数据。在Sogou新闻实验中，先进行XML数据预处理，然后进行LDA模型训练，结果显示08年新闻主要主题包括奥运、地震和经济。

摘要由CSDN通过智能技术生成

本文利用gensim进行LDA主题模型实验，第一部分是基于前文的wiki语料，第二部分是基于Sogou新闻语料。

1. 基于wiki语料的LDA实验

上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt，去停止词后可进行LDA实验。

importcodecsfrom gensim.models importLdaModelfrom gensim.corpora importDictionary

train=[]

stopwords= codecs.open('stopwords.txt','r',encoding='utf8').readlines()

stopwords = [ w.strip() for w in stopwords ]

fp= codecs.open('wiki.zh.seg.utf.txt','r',encoding='utf8')for line infp:

line=line.split()

train.append([ wfor w in line if w not instopwords ])

dictionary=corpora.Dictionary(train)

corpus= [ dictionary.doc2bow(text) for text intrain ]

lda= LdaModel(corpus=corpus, id2word=dictionary, num_topics=100)

同时gensim也提供了对wiki压缩包直接进行抽取并保存为稀疏矩阵的脚本 make_wiki，可在bash运行下面命令查看用法。

python -m gensim.scripts.make_wiki

#USAGE: make_wiki.py WIKI_XML_DUMP OUTPUT_PREFIX [VOCABULARY_SIZE]

python-m gensim.scripts.make_wiki zhwiki-latest-pages-articles.xml.bz2 zhwiki

运行时间比较久，具体情况可以看gensim官网，结果如下，mm后缀表示Matrix Market格式保存的稀疏矩阵：

-rw-r--r-- 1 chenbingjin data 172M 7月 1 12:10zhwiki_bow.mm-rw-r--r-- 1 chenbingjin data 1.3M 7月 1 12:10zhwiki_bow.mm.index-rw-r--r-- 1 chenbingjin d

最低0.47元/天解锁文章

清水荷叶粥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
lda主题模型的可视化_Gensim LDA主题模型实验

本文利用gensim进行LDA主题模型实验，第一部分是基于前文的wiki语料，第二部分是基于Sogou新闻语料。1. 基于wiki语料的LDA实验上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt，去停止词后可进行LDA实验。importcodecsfrom gensim.models importLdaModelfrom gensim.corpora importDic...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。