gensim-5个学习阶段

阶段1--语料库和向量

http://radimrehurek.com/gensim/tut1.html

* 建立语料库步骤

     1.从字符串==>向量

     2.去除停用词;去除出现次数=1的词;

     3.(对英文)小写化处理;词干化处理

     4.词袋化处理

     5.将vector进行Id化处理

     至此,语料库已经建立,可以存储起来(实际也是,建立语料库是一个长期而独立的过程,不会和后续的使用结合在一起)

* 语料流的处理优化

     - 实际的语料库数据量不小

     - 一次只读取一个文件中的vector,

* 语料的格式

* 语料库格式兼容Numpy和Scipy

阶段2--topic处理

     使用语料库进行文章的处理



阶段3--相似性查询



阶段4-处理来自wiki的数据


 阶段5--分布式模式

http://radimrehurek.com/gensim/distributed.html

* 基于gensim的分布式,对系统交互要求不高,对延迟的容忍性较好

* Numpy中的linear lagebra对时间消耗很大

     - 替换的方式:用更快速的 BLAS(Basic Linear Lagebra) 实现,如

          Intel的MKL, AMD的ACML, OS X的vecLib,Sun的Sunpref

          或者开源的 GotoBLAS,ALTAS

     - 检查所用的BLAS库的方法:

          python -c 'import scipy; scipy.show_config()'

* gensim基于Pyro(Python Remote Objects,版本>=4.8)通讯

          easy install Pyro4





转载于:https://my.oschina.net/stevie/blog/692183

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值