os.walk处理路径&&lda初级使用

# -*- coding: cp936 -*-  
import jieba, os
from gensim import corpora, models, similarities
train_set = []
walk = os.walk('/home/8888/test1')
for root, dirs, files in walk:
    for name in files:
        f = open(os.path.join(root, name), 'r')
        raw = f.read()
        word_list = list(jieba.cut(raw, cut_all = False))
        train_set.append(word_list)
dic = corpora.Dictionary(train_set)
corpus = [dic.doc2bow(text) for text in train_set]
tfidf = models.TfidfModel(corpus)#构造tfidf对象
corpus_tfidf = tfidf[corpus]#将tfidf应用于该语料库,计算该corpus的tfidf
lda = models.LdaModel(corpus_tfidf, id2word = dic, num_topics = 10)#构造lda对象
corpus_lda = lda[corpus_tfidf]#将lda应用到该语料库,计算该语料的lda    此处尚未考虑stopword的问题

for i in range(0, 10):
    print lda.print_topic(i)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值