gensim-5个学习阶段

转载 2015年11月19日 11:08:01

阶段1--语料库和向量

http://radimrehurek.com/gensim/tut1.html

* 建立语料库步骤

     1.从字符串==>向量

     2.去除停用词;去除出现次数=1的词;

     3.(对英文)小写化处理;词干化处理

     4.词袋化处理

     5.将vector进行Id化处理

     至此,语料库已经建立,可以存储起来(实际也是,建立语料库是一个长期而独立的过程,不会和后续的使用结合在一起)

* 语料流的处理优化

     - 实际的语料库数据量不小

     - 一次只读取一个文件中的vector,

* 语料的格式

* 语料库格式兼容Numpy和Scipy

阶段2--topic处理

     使用语料库进行文章的处理



阶段3--相似性查询



阶段4-处理来自wiki的数据


 阶段5--分布式模式

http://radimrehurek.com/gensim/distributed.html

* 基于gensim的分布式,对系统交互要求不高,对延迟的容忍性较好

* Numpy中的linear lagebra对时间消耗很大

     - 替换的方式:用更快速的 BLAS(Basic Linear Lagebra) 实现,如

          Intel的MKL, AMD的ACML, OS X的vecLib,Sun的Sunpref

          或者开源的 GotoBLAS,ALTAS

     - 检查所用的BLAS库的方法:

          python -c 'import scipy; scipy.show_config()'

* gensim基于Pyro(Python Remote Objects,版本>=4.8)通讯

          easy install Pyro4





相关文章推荐

Gensim官方介绍翻译

为了方便自己学习,翻译一下。原文地址:http://radimrehurek.com/gensim/intro.html。 Gensim是一个免费的Python库,它可以用来从文档中自动提取语义主题,...

gensim安装

gensim在安装过程中的出现的问题及解决办法

【win7】Python安装+gensim包安装

【Python下载】 #1#---官网地址:https://www.python.org/downloads/ #2#---下载对应版本Python:python-3.6.1-amd64.exe(我的...

gensim similarity计算文档相似度

向量空间模型计算文档集合相似性。 将原始输入的词转换为ID,词的id表示法简单易用,但是无法预测未登记词,难以挖掘词关系;词汇鸿沟[1]:任意两个词之间是独立的,无法通过词的ID来判断词语之间的关系...

NLP 主题抽取 Topic LDA代码实践 gensim包 代码

NLP 主题抽取Topic LDA代码实践 gensim包 代码         分享一个代码实践:用gensim包的LDA模型实践NLP的一个典型任务,主题抽取。         顺带提一点...

Gensim官方教程翻译(一)——快速入门

为了方便自己学习,翻译了官方的教程,原文:http://radimrehurek.com/gensim/tutorial.html。 本教程按照一系列的实例组织,用以突出gensim的各种特征。本教程...

使用Gensim建立bow TFIDF LSI模型对文本相似度计算

使用Gensim进行文本相似度计算 Gensim是一个Python的自然语言处理库,能够将文档根据TF-IDF, LDA, LSI 等模型转化成向量模式,以便进行进一步的处理。此外,gensim还实现...

文本分析-gensim

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer from gensim import corp...

Gensim Word2vec 使用教程

本文主要基于Radim Rehurek的Word2vec Tutorial.**准备输入**Gensim的word2vec的输入是句子的序列. 每个句子是一个单词列表代码块例如:>>> # impor...
  • Star_Bob
  • Star_Bob
  • 2015年08月20日 15:26
  • 23204

gensim计算词相似度报错

Traceback (most recent call last):   File "D:/dev_src/python/image_classifiy/text/similarity.py", li...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:gensim-5个学习阶段
举报原因:
原因补充:

(最多只允许输入30个字)