如何用python训练语料库_python – 我们可以使用自制语料库来训练LDA使用gensim吗?...

在浏览了Gensim软件包的文档后,我发现有4种方法可以将文本存储库转换为语料库.

语料库共有4种格式:

>市场矩阵(.mm)

> SVM Light(.svmlight)

> Blie格式(.lad-c)

>低格式(.low)

在这个问题中,如上所述,数据库中总共有19,188个文档.

必须阅读每个文档并从句子中删除停用词和标点符号,这可以使用nltk完成.

import gensim

from gensim import corpora, similarities, models

##

##Text Preprocessing is done here using nltk

##

##Saving of the dictionary and corpus is done here

##final_text contains the tokens of all the documents

dictionary = corpora.Dictionary(final_text)

dictionary.save('questions.dict');

corpus = [dictionary.doc2bow(text) for text in final_text]

corpora.MmCorpus.serialize('questions.mm', corpus)

corpora.SvmLightCorpus.serialize('questions.svmlight', corpus)

corpora.BleiCorpus.serialize('questions.lda-c', corpus)

corpora.LowCorpus.serialize('questions.low', corpus)

##Then the dictionary and corpus can be used to train using LDA

mm = corpora.MmCorpus('questions.mm')

lda = gensim.models.ldamodel.LdaModel(corpus=mm, id2word=dictionary, num_topics=100, update_every=0, chunksize=19188, passes=20)

通过这种方式,可以将他的数据集转换为可以使用gensim包使用LDA进行主题建模训练的语料库.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值