python训练自己中文语料库_我们能用gensim自制的语料库来训练LDA吗?

在浏览了Gensim包的文档之后,我发现总共有4种方法可以将文本存储库转换为语料库。

语料库共有4种格式:市场矩阵(.mm)

SVM灯(.SVM Light)

Blie格式(.lad-c)

低格式(.Low)

在这个问题上,如上所述,数据库中总共有19188个文档。

我们必须阅读每个文档,并从句子中删除停止词和标点符号,这可以使用nltk完成。import gensim

from gensim import corpora, similarities, models

##

##Text Preprocessing is done here using nltk

##

##Saving of the dictionary and corpus is done here

##final_text contains the tokens of all the documents

dictionary = corpora.Dictionary(final_text)

dictionary.save('questions.dict');

corpus = [dictionary.doc2bow(text) for text in final_text]

corpora.MmCorpus.serialize('questions.mm', corpus)

corpora.SvmLightCorpus.serialize('questions.svmlight', corpus)

corpora.BleiCorpus.serialize('questions.lda-c', corpus)

corpora.LowCorpus.serialize('questions.low', corpus)

##Then the dictionary and corpus can be used to train using LDA

mm = corpora.MmCorpus('questions.mm')

lda = gensim.models.ldamodel.LdaModel(corpus=mm, id2word=dictionary, num_topics=100, update_every=0, chunksize=19188, passes=20)

这样就可以将他的数据集转换成一个语料库,该语料库可以使用gensim包使用LDA进行主题建模训练。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值