![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
中文数据处理
喔就是哦噢喔
菜鸡互啄
展开
-
LDA模型,获取所有的文档-主题分布(即得到文档对于每个主题的概率分布)并保存
前言:写小论文用到lda主题模型,需要得到所有的文档-主题分布。现有的只是为文档输出前几个概率大的主题代码:import numpy as npfrom gensim.models import LdaModel#训练lda模型lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=size_lda ,minimum_probability=0)"""start:文档-主题分布矩阵,使用DocumentTopicMatrix[原创 2022-02-19 18:15:15 · 5740 阅读 · 20 评论 -
LDA模型参数设置,训练效果较好
前言:写小论文用到lda主题模型,在网上找了一圈没有找到训练效果较好的模型参数示例。为了写出小论文做了很多次实验,达到了实验中最好的效果,故贴出代码:from gensim.models import LdaModellda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=size_lda, alpha="auto",eta='auto',passes=20)其中,corpus,id2word,num_topics不多解释,主要是原创 2022-02-19 17:54:46 · 7126 阅读 · 13 评论 -
分词及去停用词(可用作科研实验)python
写在前面:毕业要发四区论文,故开始了苦逼看论文写代码之旅,现论文已发出。网上少见对中文文本进行预处理的可以用作科研的代码,故贴出,想要资源的可移步此下载。一、资源结构:1.资源结构如下图:2.把需要分词和去停用词的中文数据放入allData文件夹下的originalData文件夹,依次运行1.cutWord.py和2removeStopWord.py之后,allData文件夹下的afterRemoveStopWordData文件夹就是最终分词且去停用词之后的文件。注意:originalData文件原创 2022-02-14 13:50:38 · 1440 阅读 · 0 评论