NLP
喔就是哦噢喔
菜鸡互啄
展开
-
全局最优和局部最优 世俗理解以及原理解释
引言今天逛知乎看到这样一个问题和回答,让我瞬间理解局部最优和全局最优在诸如算法导论等书是这样解释的:全局最优是在全局选取一个最佳值,而局部最优是在某一部分选取一个最佳值。每一部分都选取最佳值(即局部最优)最后不一定是全局最优。世俗理解与原理解释局部最优:有一个人,精致的利己主义者,没有深谋远虑只是看重眼前的利益。比如说在日常生活中小偷小摸、损人利己、曲意逢迎等等为自己谋取最大利益。这样的人办不成大事,因为一次两次还好,次数多了身边人都知道他是什么样的人了,要么不带他一起玩,要么防备着他以避免被坑。原创 2022-02-21 13:09:26 · 3490 阅读 · 0 评论 -
LDA模型,获取所有的文档-主题分布(即得到文档对于每个主题的概率分布)并保存
前言:写小论文用到lda主题模型,需要得到所有的文档-主题分布。现有的只是为文档输出前几个概率大的主题代码:import numpy as npfrom gensim.models import LdaModel#训练lda模型lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=size_lda ,minimum_probability=0)"""start:文档-主题分布矩阵,使用DocumentTopicMatrix[原创 2022-02-19 18:15:15 · 5902 阅读 · 20 评论 -
LDA模型参数设置,训练效果较好
前言:写小论文用到lda主题模型,在网上找了一圈没有找到训练效果较好的模型参数示例。为了写出小论文做了很多次实验,达到了实验中最好的效果,故贴出代码:from gensim.models import LdaModellda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=size_lda, alpha="auto",eta='auto',passes=20)其中,corpus,id2word,num_topics不多解释,主要是原创 2022-02-19 17:54:46 · 7435 阅读 · 14 评论 -
分词及去停用词(可用作科研实验)python
写在前面:毕业要发四区论文,故开始了苦逼看论文写代码之旅,现论文已发出。网上少见对中文文本进行预处理的可以用作科研的代码,故贴出,想要资源的可移步此下载。一、资源结构:1.资源结构如下图:2.把需要分词和去停用词的中文数据放入allData文件夹下的originalData文件夹,依次运行1.cutWord.py和2removeStopWord.py之后,allData文件夹下的afterRemoveStopWordData文件夹就是最终分词且去停用词之后的文件。注意:originalData文件原创 2022-02-14 13:50:38 · 1544 阅读 · 0 评论