LDA python 用Gensim包处理LDA主题模型

最新推荐文章于 2024-04-28 13:49:58 发布

棒棒糖one

最新推荐文章于 2024-04-28 13:49:58 发布

阅读量2.7k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_43332500/article/details/90597396

版权

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
filepaths = []

#循环将文件夹中的TXT全部导入
import os
rootdir = 'F:/GEV/lda_dir/referenceData'
list = os.listdir(rootdir) #列出文件夹下所有的目录与文件
for i in range(0,len(list)):
	path = os.path.join(rootdir,list[i])
	if os.path.isfile(path):
		filepaths.append(path)

docs = [open(f, 'r', encoding = 'utf-8').read() for f in filepaths]

docs = [word_tokenize(doc) for doc in docs]

stopWords = set(stopwords.words('english'))

docs = [[w  for w in doc if w.lower() not in stopWords] for doc in docs]


from gensim import corpora
from gensim.models import LdaModel
from gensim import models
from gensim.corpora import Dictionary

dictionary = corpora.Dictionary(docs)

corpus = [ dictionary.doc2bow(text) for text in docs ]
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]

#########Run the LDA model for XX topics #########################

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

棒棒糖one

关注关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
LDA python 用Gensim包处理LDA主题模型

from nltk.tokenize import word_tokenizefrom nltk.corpus import stopwordsfilepaths = []#循环将文件夹中的TXT全部导入import osrootdir = ‘F:/GEV/lda_dir/referenceData’list = os.listdir(rootdir) #列出文件夹下所有的目录与文件...
复制链接

扫一扫