gensim
_yuki_
一路打怪升级,直至见到大魔王
展开
-
gensim Word2Vec 训练和使用
训练模型利用gensim.models.Word2Vec(sentences)建立词向量模型该构造函数执行了三个步骤:建立一个空的模型对象,遍历一次语料库建立词典,第二次遍历语料库建立神经网络模型。可以通过分别执行model=gensim.models.Word2Vec(),model.build_vocab(sentences),model.train(sentences原创 2018-01-26 11:44:30 · 60677 阅读 · 16 评论 -
gensim Word2Vec的参数说明
用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译,以便不时之需。class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5,min_count=5, max_vocab_size=None, sample=0原创 2018-01-26 03:44:26 · 3695 阅读 · 0 评论 -
gensim corpora 和 dictionary 使用 (一)
corpora是gensim中的一个基本概念,是文档集的表现形式,也是后续进一步处理的基础。lib:from gensim import corporafrom collections import defaultdict数据:documents = ["Human machine interface for lab abc computer applications"原创 2018-01-29 09:28:29 · 21163 阅读 · 3 评论 -
gensim 主题与转换 (二)
测试数据:texts=[['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system', 'response', 'time'], ['eps', 'user', 'interface', 'system'], ['system', 'human', 'system', 'eps'], ...原创 2018-02-08 17:55:51 · 591 阅读 · 0 评论 -
gensim 相似度查询(Similarity Queries)(三)
继 前两篇的学习,我们了解了创建在向量空间创建一个语料库意味着什么,如何在不同的向量空间之间转换。我们所做的一切都是为了一个共同目标:决定文档对之间的相似度或者一篇特定文档和其他文档之间的相似度(例如用户输入与已索引文档)。 导入lib:from gensim import corpora,models,similarities加载字典与语料库:dictionary=corpora.Diction...原创 2018-02-23 12:07:10 · 3256 阅读 · 0 评论