文本相似性工具安装 (python ,nltk , gensim)

最新推荐文章于 2024-02-23 17:11:55 发布

Johline

最新推荐文章于 2024-02-23 17:11:55 发布

阅读量1.4k

点赞数

分类专栏： python相似度

python相似度专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文本相似性工具安装 (python ,nltk , gensim)

我们需要安装三个主要的软件Python, NLTK和Gensim。后两个都是python的第三方插件。NLTK是一个基于Python的开源自然语言处理工具包，包含丰富的应用，可以用于自然语言处理的学习和算法的演示，比如去听用词，tokenize, stem，词性标注，句法分析，相似性计算等。Gensim是一个开放的工具包，用来计算向量的相似性，同时提供LSI和LDA主题模型实现，以及简单的API调用，所以它是一个很好的用来学习相似性计算和主题模型的工具。

如下我只是简单介绍了各个包在Windows下的安装，Linux的安装，可以参看链接中具体的安装介绍，同时由于Python跨平台，所以很多地方在不同平台下安装大同小异。

Python安装

可以参考如下链接：

http://weixiaolu.iteye.com/blog/1617440

建议安装python 2.7，因为目前NLTK只支持python 2.6和2.7版本。

NLTK安装

在安装NLTK之前需要先安装Numpy和PyYAML。可从如下地址下载：

http://sourceforge.net/projects/numpy/files/NumPy/1.6.2/numpy-1.6.2-win32-superpack-python2.7.exe

http://pyyaml.org/wiki/PyYAML

然后从http://pypi.python.org/pypi/nltk下载并安装NLTK

下载成功后你再python命令行中输入：

Import nltk

测试是否成功。如果不成功请检查安装，或者直接将上面的包解压后放到

$PYTHON\Lib\site-packages

如果成功则继续在命令行输入:

nltk.download()

会弹出一个下载列表（语料库文件）

如果使用代理，请重新设置python代理，参考如下：

http://nltk.org/data.html?highlight=proxy

由于公司用的是ISA服务器，可能在Linux下上网会有问题，请使用NTLMAPS工具。我在win8下设置了公司的代理，还是链接不上。于是我使用了另外一种安装数据的方法，直接从网站上下载各种语料库安装包，然后放到指定的目录，过程如下：

先到http://nltk.org/nltk_data/找到各种安装包（并不一定需要全部安装），根据以后你程序的需要，缺了哪个你就安装哪个。

然后你解压这些文件到$Python\nltk_data下面，如果没有这个文件夹，你可以创建。同时需要指出的是，比如stopwords需要在该目录下再创建一个corpora目录，然后放进去。这个根据你使用的时候，程序提示报错信息去更改。

在命令行中键入如下命令：

from nltk.stem.lancaster import LancasterStemmer

st=LancasterStemmer()

st.stem(‘works’)

>>>work

如果中间没有报错，并且输出’work’，则安装NLTK成功。

安装Gensim

到如下地址http://radimrehurek.com/gensim/index.html

下载安装包，或者直接将安装包解压到$PYTHON\Lib\site-packages

值得注意的是，在安装之前，请先下载SciPy， http://www.scipy.org/

在命令行中，输入如下命令测试Gensim是否安装成功：

import genism

如果没有报错，安装成功。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。