gensim
ljz2016
这个作者很懒,什么都没留下…
展开
-
gensim(四)--word2vec embedding
训练并保存模型def train_savemodel(): model = Word2Vec(PathLineSentences(directory), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count(), sg=1, # 使用 skip-gram算法 ...原创 2019-12-30 16:21:15 · 803 阅读 · 0 评论 -
gensim(三)--相似度查询
这篇主题是查询相似的文档和前文一样,先把文档转换为向量表示from collections import defaultdictfrom gensim import corporadocuments = [ "Human machine interface for lab abc computer applications", "A survey of user opin...原创 2019-12-26 17:42:14 · 804 阅读 · 0 评论 -
gensim(一)--core
训练模型,原始文本是使用jieba分词后的语料model = Word2Vec(LineSentence('jieba_zhu1'), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count()) model.save('model/zhu.model') model.wv.save_word2vec...原创 2019-12-24 13:26:38 · 347 阅读 · 0 评论 -
gensim(二)--语料与向量之间转换
这篇文章演示如何把文本转换为向量表示,以及语料库文档流式处理并保存到硬盘上。import loggingfrom pprint import pprintfrom collections import defaultdict# 设置日志格式,日志级别logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s'...原创 2019-12-26 16:22:56 · 676 阅读 · 0 评论