os.walk处理路径&&lda初级使用

最新推荐文章于 2020-11-27 15:54:38 发布

尽拣寒枝不肯栖

最新推荐文章于 2020-11-27 15:54:38 发布

阅读量483

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_27231343/article/details/51942294

版权

深度学习专栏收录该内容

61 篇文章 1 订阅

订阅专栏

# -*- coding: cp936 -*-
import jieba, os
from gensim import corpora, models, similarities
train_set = []
walk = os.walk('/home/8888/test1')
for root, dirs, files in walk:
    for name in files:
        f = open(os.path.join(root, name), 'r')
        raw = f.read()
        word_list = list(jieba.cut(raw, cut_all = False))
        train_set.append(word_list)
dic = corpora.Dictionary(train_set)
corpus = [dic.doc2bow(text) for text in train_set]
tfidf = models.TfidfModel(corpus)#构造tfidf对象
corpus_tfidf = tfidf[corpus]#将tfidf应用于该语料库，计算该corpus的tfidf
lda = models.LdaModel(corpus_tfidf, id2word = dic, num_topics = 10)#构造lda对象
corpus_lda = lda[corpus_tfidf]#将lda应用到该语料库，计算该语料的lda    此处尚未考虑stopword的问题

for i in range(0, 10):
    print lda.print_topic(i)