lda主题模型的可视化_Gensim LDA主题模型实验

本文通过gensim库分别对wiki语料和Sogou新闻语料进行LDA主题模型实验。在wiki实验中,展示了如何从原始文本到模型训练的过程,并使用make_wiki脚本处理数据。在Sogou新闻实验中,先进行XML数据预处理,然后进行LDA模型训练,结果显示08年新闻主要主题包括奥运、地震和经济。
摘要由CSDN通过智能技术生成

本文利用gensim进行LDA主题模型实验,第一部分是基于前文的wiki语料,第二部分是基于Sogou新闻语料。

1. 基于wiki语料的LDA实验

上一文得到了wiki纯文本已分词语料 wiki.zh.seg.utf.txt,去停止词后可进行LDA实验。

importcodecsfrom gensim.models importLdaModelfrom gensim.corpora importDictionary

train=[]

stopwords= codecs.open('stopwords.txt','r',encoding='utf8').readlines()

stopwords = [ w.strip() for w in stopwords ]

fp= codecs.open('wiki.zh.seg.utf.txt','r',encoding='utf8')for line infp:

line=line.split()

train.append([ wfor w in line if w not instopwords ])

dictionary=corpora.Dictionary(train)

corpus= [ dictionary.doc2bow(text) for text intrain ]

lda= LdaModel(corpus=corpus, id2word=dictionary, num_topics=100)

同时gensim也提供了对wiki压缩包直接进行抽取并保存为稀疏矩阵的脚本 make_wiki,可在bash运行下面命令查看用法。

python -m gensim.scripts.make_wiki

#USAGE: make_wiki.py WIKI_XML_DUMP OUTPUT_PREFIX [VOCABULARY_SIZE]

python-m gensim.scripts.make_wiki zhwiki-latest-pages-articles.xml.bz2 zhwiki

运行时间比较久,具体情况可以看gensim官网,结果如下,mm后缀表示Matrix Market格式保存的稀疏矩阵:

-rw-r--r-- 1 chenbingjin data 172M 7月 1 12:10zhwiki_bow.mm-rw-r--r-- 1 chenbingjin data 1.3M 7月 1 12:10zhwiki_bow.mm.index-rw-r--r-- 1 chenbingjin d

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值