作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这个一款具备多种功能的神器,为了深入了解该工具的使用方法,本人将使用该工具进行一系列实战。
该系列博客共分为以下几章:
(一)Gensim简介及使用环境搭建
(二)工具自带教程分析
(三)实战演练案例之文档分类
(四)后记
一、Gensim简介及使用环境搭建
(1)简介
Gensim的作者是Radim Řehůřek,一位来自阿拉伯世界的学者。这个作品源于其博士论文《SCALABILITY OF SEMANTIC ANALYSIS IN NATURAL LANGUAGE PROCESSING》,用兴趣的同学可以到谷歌学术上查找看看,这里就不在细说。给定一篇文档,Gensim可以产生一些列与该文档相似的文档集合,这也是作者将其命名为Gensim(gensim = “generate similar”)原因。另外Gensim在Github上地址为:https://github.com/piskvorky/gensim。
(2)Gensim可以做什么?
根据Gensim的官方API描述,Gensim提供如下函数: