Gensim
Thinking_boy1992
这个作者很懒,什么都没留下…
展开
-
gensim 教程 -Part1
本文翻译自 Gensim使用Python的标准日志模型,在不同的优先级中来记录各种东西; 为了激活日志,运行:>>> import logging>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)简单的例子(Quick Example) 让我们原创 2016-12-04 09:31:04 · 932 阅读 · 0 评论 -
gensim introduction
Gensim 是被设计用来自动抽取文本语义主题的免费Python库; Gensim被设计用来处理原始、非结构化数字文本(纯文本)。在gensim中的算法,例如,Latent Semantic Analysis, Latent Dirichlet Allocation和Random Projections,通过统计训练文本语料中单词间共同出现的模式发现文档的语义结构;这些算法是非监督的,意味着不需要翻译 2016-11-22 10:48:19 · 471 阅读 · 0 评论 -
Corpora and Vector Spaces
不要忘记设置:>>> import logging>>> logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)如果你想要查看日志事件;从字符串到向量(From Strings to Vectors) 从以字符串表示的文档开始:>>> from gensim impor翻译 2016-11-22 20:31:49 · 780 阅读 · 0 评论 -
主题和转换
本文翻译自 转换接口 在前面那个教程中,我们构建了一个表示为向量流的文本语料,接着,使用Gensim来处理语料:>>> from gensim import corpora, models, similarities>>> if (os.path.exists("/tmp/deerwester.dict")):>>> dictionary = corpora.Dictionary.lo翻译 2016-11-23 08:40:32 · 657 阅读 · 0 评论 -
相似度查询
本文翻译自 相似度接口 在前面的两篇教程中,讲述了用向量空间模型构造语料库的含义,以及如何在两个不同的向量空间进行转换;这样做的一般目的是我们想要确定两篇文档的相似性,或一篇文章和文档集中的其他文章的相似性; 下面展示这如何在Gensim中被做到的,让我们考虑与前面例子相同的语料库; (which really originally comes from Deerwester et al.’s翻译 2016-11-23 14:13:32 · 3272 阅读 · 0 评论 -
在英文维基百科上的实验
本文翻译自 这个文档介绍获取和处理维基百科的过程,以至于每个人都可以复制其结果; 准备语料库(Preparing the corpus) 1、首先,下载所有维基百科文章的转储 地址((you want the file enwiki-latest-pages-articles.xml.bz2, or enwiki-YYYYMMDD-pages-articles.xml.bz2 for d翻译 2016-11-23 16:17:48 · 716 阅读 · 1 评论 -
word2vec
本文翻译自 本文通过word2vec的“skip-gram and CBOW模型进行深度学习,使用hierarchical softmax 或negative sampling; 训练算法最初是从C包中移植出来,https://code.google.com/archive/p/word2vec/,并且拓展了一些功能; 有一个关于gensim word2vec 的博客教程,使用GoogleN原创 2016-11-24 09:19:18 · 958 阅读 · 0 评论