![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 82
Ace Cheney
这个作者很懒,什么都没留下…
展开
-
使用JS距离实现LDA文档相似度计算
问题提出:[1][2]实现源码:topicmodel = gensim.models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=topic_num, random_state=100, update_every=1, chunksize=100, passes=10, alpha='auto', per_word_topics=True)vec = topicmodel.get_document_topics(原创 2021-03-09 11:37:51 · 1735 阅读 · 6 评论 -
GENSIM官方教程(4.0.0beta最新版)-FastText Model
GENSIM官方教程(4.0.0beta最新版)-FastText Model译文目录什么时候使用fastText模型训练参数解释模型的保存与载入词向量查找相似性查询译文目录GENSIM官方文档(4.0.0beta最新版)-面向新手的核心教程GENSIM官方教程(4.0.0beta最新版)-Word2Vec词向量模型GENSIM官方教程(4.0.0beta最新版)-FastText ModelGENSIM官方教程(4.0.0beta最新版)-LDA模型GENSIM官方教程(4.0.0beta最翻译 2021-02-07 21:14:38 · 856 阅读 · 0 评论 -
LDA主题模型评价指标汇总
主题模型评价指标-主题距离引入与效果展示注意事项个人经验引入与效果展示在训练好LDA模型后,一个很自然的举动就是尝试去衡量模型的好坏。比如去看看自己聚出来的模型直接有哪些不同。本文介绍的模型评价可视化指标的最终的效果是这样的:我使用LDA把语料集聚成了10类,所以横纵坐标Jaccard Distance#原理注意事项此函数仅适用于gensimLDA模型,gensim的HDP和malletLDA并不可用,如果使用会报错如:AttributeError: 'LdaMallet' obj原创 2021-02-06 22:38:32 · 17884 阅读 · 8 评论 -
* Not all rows (distributions) in doc_topic_dists sum to 1.
问题描述:在使用gensim的HDP进行主题聚类并尝试通过PyLDAVIS进行可视化时报错代码:from gensim.models import HdpModelen_hdp = HdpModel(en_corpus, en_dictionary, chunksize=5000)import pyLDAvisimport pyLDAvis.gensimpyLDAvis.enable_notebook()vis = pyLDAvis.gensim.prepare(en_hdp, en_co原创 2021-01-30 18:26:04 · 1397 阅读 · 3 评论 -
GENSIM官方教程(4.0.0beta最新版)-LDA模型评价与可视化
GENSIM官方文档(4.0.0beta最新版)-LDA模型评价与可视化一、载入数据集并进行分词等预处理操作二、训练两个LDA模型三、可视化两个模型并比较案例一:可视化一个模型的主题之间的关联性案例二:可视化不同模型的主体之间的关联性。原文链接一、载入数据集并进行分词等预处理操作from string import punctuationfrom nltk import RegexpTokenizerfrom nltk.stem.porter import PorterStemmerfrom翻译 2021-01-28 17:23:40 · 2084 阅读 · 1 评论 -
GENSIM官方教程(4.0.0beta最新版)-Word2Vec词向量模型
GENSIM官方教程(4.0.0beta最新版)-词向量模型回顾:词袋模型简介:词向量模型词向量模型训练实例训练一个你自己的模型储存和加载模型训练参数内存相关的细节模型评估在线学习计算训练损失基准测试词嵌入可视化原文链接本章节介绍Gensim的词向量模型,并将其应用于 Lee Evaluation Corpus。词向量模型是一种基于神经网络的广泛使用的算法。这种算法通常属于深度学习,尽管word2vec本身通俗易懂。通过使用大量未注释的纯文本,word2vec会自动学习单词之间的关系。每个单词用一个翻译 2021-01-28 13:17:19 · 6284 阅读 · 1 评论 -
GENSIM官方教程(4.0.0beta最新版)-LDA模型
GENSIM官方文档(4.0.0beta最新版)-LDA模型概述数据集文档预处理以及向量化训练LDA需要调试的东西原文链接概述这一章节介绍Gensim的LDA模型,并演示其在NIPS语料库上的用法。本教程的目的是演示如何训练和调整LDA模型。在本教程中,我们将:加载输入数据。预处理该数据。将文档转换成单词袋向量。训练LDA模型。本教程不会:解释潜在的狄利克雷分配方式说明LDA模型如何执行推理教您如何调参如果您不熟悉LDA模型或如何在Gensim中使用它,我(Olavur翻译 2021-01-28 13:13:55 · 5686 阅读 · 3 评论 -
GENSIM官方文档(4.0.0beta最新版)-面向新手的核心教程
GENSIM官方文档(4.0.0beta最新版)-面向新手的核心教程1. 核心概念Document(文档)Corpus(语料库)Vector (向量)Model(模型)总结2. 语料库和向量空间从字符串到向量语料流-一次一篇文档语料库格式与Numpy和Scipy的兼容性3. 主题和变换创建语料库主题变换模型4. 相似度查询创建语料库相似度接口初始化查询结构执行查询1. 核心概念本模块介绍Documents, Corpora, Vectors and Models:他们是理解和使用gensim所需的基本翻译 2021-01-27 17:43:32 · 3593 阅读 · 2 评论