gensim-5个学习阶段

转载 2015年11月19日 11:08:01

阶段1--语料库和向量

http://radimrehurek.com/gensim/tut1.html

* 建立语料库步骤

     1.从字符串==>向量

     2.去除停用词;去除出现次数=1的词;

     3.(对英文)小写化处理;词干化处理

     4.词袋化处理

     5.将vector进行Id化处理

     至此,语料库已经建立,可以存储起来(实际也是,建立语料库是一个长期而独立的过程,不会和后续的使用结合在一起)

* 语料流的处理优化

     - 实际的语料库数据量不小

     - 一次只读取一个文件中的vector,

* 语料的格式

* 语料库格式兼容Numpy和Scipy

阶段2--topic处理

     使用语料库进行文章的处理



阶段3--相似性查询



阶段4-处理来自wiki的数据


 阶段5--分布式模式

http://radimrehurek.com/gensim/distributed.html

* 基于gensim的分布式,对系统交互要求不高,对延迟的容忍性较好

* Numpy中的linear lagebra对时间消耗很大

     - 替换的方式:用更快速的 BLAS(Basic Linear Lagebra) 实现,如

          Intel的MKL, AMD的ACML, OS X的vecLib,Sun的Sunpref

          或者开源的 GotoBLAS,ALTAS

     - 检查所用的BLAS库的方法:

          python -c 'import scipy; scipy.show_config()'

* gensim基于Pyro(Python Remote Objects,版本>=4.8)通讯

          easy install Pyro4





Gensim实战(一)

作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这个一款具备多种功能的神器,为了深入了解该工具的使用方法,本人将使用该工具进行一系列实战。        该系列博客共分为以下...
  • u013776640
  • u013776640
  • 2015年01月02日 23:24
  • 7886

使用jieba分词对中文文档进行分词|停用词去重

# -*- encoding:utf-8 -*- import os import jieba #加载停用词词典 stopwordsfile = open('E:/Workspace/Python/E...
  • u010105243
  • u010105243
  • 2016年11月27日 11:02
  • 11045

【python gensim使用】word2vec词向量处理中文语料

word2vec介绍word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的...
  • churximi
  • churximi
  • 2016年05月21日 20:57
  • 28289

Gensim学习笔记-2-理解Gensim中的Corpus对象

所有corpora.xxxcorpus中的对象均继承接口 gensim.interfaces.CorpusABC 一个语料库对象(corpus)是一个可迭代的对象,每次迭代得到一篇文档(docum...
  • xuxiuning
  • xuxiuning
  • 2015年08月17日 14:27
  • 2276

Gensim官方教程翻译(二)——语料库与向量空间(Corpora and Vector Spaces)

本文内容:如何利用gensim将文本信息转换为分析用的语料库,以及如何读取/存储语料库。...
  • questionfish
  • questionfish
  • 2015年07月03日 11:02
  • 8546

利用Python gensim基于中文语料建立LSA隐性语义模型

传统词向量空间模型 对语料库中每个文档进行分词后,将生成一个词典。每个文档对应一个与词典长度一致的向量。若文档中出现某个词,则向量中相应的项目非零。下标index通过将词语输入Hashing函数获得...
  • lo_cima
  • lo_cima
  • 2016年07月07日 16:46
  • 1991

Gensim官方教程翻译(七)——分布式潜在语义分析案例(Distributed Latent Semantic Analysis)

本文主要记录了使用gensim进行分布式潜在语义分析计算的方法。
  • questionfish
  • questionfish
  • 2015年07月06日 21:52
  • 2853

Gensim官方教程翻译(六)——分布式计算(Distributed Computing)

为何要分布式计算?需要构建一个百万文档级语料库的语义代表,却耗时太~~长?手上有几个可用的闲置计算机?分布式计算力争通过将给定的任务切分为几个小型任务,并将这些任务指派给几台平行的计算机完成来实现加速...
  • questionfish
  • questionfish
  • 2015年07月06日 11:12
  • 2722

使用gensim和sklearn搭建一个文本分类器(一):流程概述

总的来讲,一个完整的文本分类器主要由两个阶段,或者说两个部分组成:一是将文本向量化,将一个字符串转化成向量形式;二是传统的分类器,包括线性分类器,SVM, 神经网络分类器等等。之前看的THUCTC的技...
  • u014595019
  • u014595019
  • 2016年09月04日 18:19
  • 8452

文本分析-gensim

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer from gensim import corp...
  • weiyudang11
  • weiyudang11
  • 2016年08月24日 15:08
  • 810
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:gensim-5个学习阶段
举报原因:
原因补充:

(最多只允许输入30个字)