gensim-5个学习阶段

转载 2015年11月19日 11:08:01

阶段1--语料库和向量

http://radimrehurek.com/gensim/tut1.html

* 建立语料库步骤

     1.从字符串==>向量

     2.去除停用词;去除出现次数=1的词;

     3.(对英文)小写化处理;词干化处理

     4.词袋化处理

     5.将vector进行Id化处理

     至此,语料库已经建立,可以存储起来(实际也是,建立语料库是一个长期而独立的过程,不会和后续的使用结合在一起)

* 语料流的处理优化

     - 实际的语料库数据量不小

     - 一次只读取一个文件中的vector,

* 语料的格式

* 语料库格式兼容Numpy和Scipy

阶段2--topic处理

     使用语料库进行文章的处理



阶段3--相似性查询



阶段4-处理来自wiki的数据


 阶段5--分布式模式

http://radimrehurek.com/gensim/distributed.html

* 基于gensim的分布式,对系统交互要求不高,对延迟的容忍性较好

* Numpy中的linear lagebra对时间消耗很大

     - 替换的方式:用更快速的 BLAS(Basic Linear Lagebra) 实现,如

          Intel的MKL, AMD的ACML, OS X的vecLib,Sun的Sunpref

          或者开源的 GotoBLAS,ALTAS

     - 检查所用的BLAS库的方法:

          python -c 'import scipy; scipy.show_config()'

* gensim基于Pyro(Python Remote Objects,版本>=4.8)通讯

          easy install Pyro4





举报

相关文章推荐

word2vec词向量训练及gensim的使用

一、什么是词向量 词向量最初是用one-hot represention表征的,也就是向量中每一个元素都关联着词库中的一个单词,指定词的向量表示为:其在向量中对应的元素设置为1,其他的元素设置为0。采...

gensim学习笔记(二)- Topic and Transformations(TF-IDF, LSI)

TF-IDF Transformation的基本原理及实现 LSI Transformation的基本原理及实现

我是如何成为一名python大咖的?

人生苦短,都说必须python,那么我分享下我是如何从小白成为Python资深开发者的吧。2014年我大学刚毕业..

gensim函数库的Word2Vec的参数说明

用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译,以便不时之需。 class gensim.models.word2vec....
  • szlcw1
  • szlcw1
  • 2016-10-07 19:26
  • 5825

Gensim实战(一)

作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这个一款具备多种功能的神器,为了深入了解该工具的使用方法,本人将使用该工具进行一系列实战。        该系列博客共分为以下...

GENSIM 使用笔记1 --- 语料和向量空间

1 本篇说明本篇博客来源于GENSIM官方向导文档的第一章,主要供自己后续的翻阅,并通过分享带给诸位网友一个小小的参照。从字符串到向量在这一小节当中,将会讲述如何通过gensim,将一段文本以向量的形...

学习存储技术的5个阶段

几个月前,我写了一篇名为“我是如何学习存储的”文章,虽然在这篇文章中我详细地介绍了自己学习存储的过程,但据大家反应并不具有代表性,特殊化的东西太多。为了能给刚开始学习存储技术的新人,或准备学习存储技术...

mapreduce运行的5个阶段

mapreduce shuffle运行过程

【ZOJ3938 The 13th Zhejiang Provincial Collegiate Programming ContestC】【简单模拟】Defuse the Bomb 5个阶段正确决策

Defuse the Bomb Time Limit: 2 Seconds      Memory Limit: 65536 KB The bomb is about to ex...

7. 创业5个黄金阶段 你抓住了吗

成就一生的成功之路:掌握创业的5个黄金阶段     有些事,做错了还可以重新来过,但生命中每个阶段的抉择,都只能有一次。一旦决定了方向,就不要后悔,要勇往直前!     我把创业依照年龄分...
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)