NLTK(Natural Language Toolkit)是python的自然语言处理工具包,其中包含大量的软件,数据和文档。这里我们用windows 32bit的搭建来说。
1.首先安装python(这里我用的版本是python3.4.3,目录C:\Python34)
在官网上可以下载不同的版本:点击打开链接
下载完成后在C:\Python34目录下可以看到python.exe文件,打开即可进行python程序的编写:
我们可以把python所在的文件目录加入名为"Path"的环境变量里面,可以直接在DOS窗口下键入"python"命令来进行python的编写。具体方法如下:
打开“计算机(即“我的电脑”)”==>“系统属性”==>“高级系统设计”==>“环境变量”==>“Path”,然后在Path中加入python.exe文件所在的目录即可(这里我把它装在了C:\Python34目录下)。别忘了在最后加一个' ; '来作为结束符。
然后在打开DOS窗口,键入命令"python"即可:
2.安装NumPy(注意要安装和你的python版本对于的NumPy)
下载链接:点击打开链接
注意这里面有很多不同的版本,找出对于你python的版本,我用的是python3.4版本,需要安装下图标记的NumPy版本。
然后找到下载目录,进行安装即可:
3.安装NLTK
下载链接:点击打开链接
选择第二个win32.exe(md5)进行下载即可(这个支持python2.7及以上的版本)。
然后找到下载目录进行安装即可:
4.NLTK数据源下载
在python中键入以下命令:
>>> import nltk
>>> nltk.download()
这时候会输出:
然后会弹出一个“NLTK Downloader”的窗口:
选择“all”,点击"Download",系统就开始下载NLTK的数据包了,我们可以在Download Directory中更改下载路径。PS:大概需要好几分钟的时间来下载,耐心等一下。下载完成后会在DOS窗口下显示一个“True”:
我们也可以通过键入命令“from nltk.book import * ”来查看,如图所示:
关于NLTK的更多功能,大家可以参考:点击打开链接