文本相似性工具安装 (python ,nltk , gensim)

文本相似性工具安装 (python ,nltk , gensim)

我们需要安装三个主要的软件Python, NLTK和Gensim。后两个都是python的第三方插件。NLTK是一个基于Python的开源自然语言处理工具包,包含丰富的应用,可以用于自然语言处理的学习和算法的演示,比如去听用词,tokenize, stem,词性标注,句法分析,相似性计算等。Gensim是一个开放的工具包,用来计算向量的相似性,同时提供LSI和LDA主题模型实现,以及简单的API调用,所以它是一个很好的用来学习相似性计算和主题模型的工具。

如下我只是简单介绍了各个包在Windows下的安装,Linux的安装,可以参看链接中具体的安装介绍,同时由于Python跨平台,所以很多地方在不同平台下安装大同小异。

 

Python安装

可以参考如下链接:

http://weixiaolu.iteye.com/blog/1617440

建议安装python 2.7,因为目前NLTK只支持python 2.6和2.7版本。

 

NLTK安装

在安装NLTK之前需要先安装Numpy和PyYAML。可从如下地址下载:

http://sourceforge.net/projects/numpy/files/NumPy/1.6.2/numpy-1.6.2-win32-superpack-python2.7.exe

http://pyyaml.org/wiki/PyYAML

然后从http://pypi.python.org/pypi/nltk下载并安装NLTK

 

下载成功后你再python命令行中输入:

Import nltk

测试是否成功。如果不成功请检查安装,或者直接将上面的包解压后放到

$PYTHON\Lib\site-packages

如果成功则继续在命令行输入:

nltk.download()

会弹出一个下载列表(语料库文件)

如果使用代理,请重新设置python代理,参考如下:

http://nltk.org/data.html?highlight=proxy

由于公司用的是ISA服务器,可能在Linux下上网会有问题,请使用NTLMAPS工具。我在win8下设置了公司的代理,还是链接不上。于是我使用了另外一种安装数据的方法,直接从网站上下载各种语料库安装包,然后放到指定的目录,过程如下:

先到http://nltk.org/nltk_data/找到各种安装包(并不一定需要全部安装),根据以后你程序的需要,缺了哪个你就安装哪个。

然后你解压这些文件到$Python\nltk_data下面,如果没有这个文件夹,你可以创建。同时需要指出的是,比如stopwords需要在该目录下再创建一个corpora目录,然后放进去。这个根据你使用的时候,程序提示报错信息去更改。

在命令行中键入如下命令:

from nltk.stem.lancaster import LancasterStemmer

st=LancasterStemmer()

st.stem(‘works’)

>>>work

如果中间没有报错,并且输出’work’,则安装NLTK成功。

 

安装Gensim

到如下地址http://radimrehurek.com/gensim/index.html

下载安装包,或者直接将安装包解压到$PYTHON\Lib\site-packages

值得注意的是,在安装之前,请先下载SciPy, http://www.scipy.org/

在命令行中,输入如下命令测试Gensim是否安装成功:

import genism

如果没有报错,安装成功。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值