github 地址:https://github.com/nltk/nltk/
官方地址:http://www.nltk.org/
中文文档:http://download.csdn.net/detail/u013378306/9756747
安装及测试
Install NLTK: run sudo pip install -U nltk
Install Numpy (optional): run sudo pip install -U numpy
Test installation: run python then type import nltk
Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意。
在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库。
下载数据文件
>>>import nltk
>>>nltk.download()
总的数据有300M左右,下载很慢,
提供下载地址:https://pan.baidu.com/s/1nvfR485
nltk 数据文件结构
nltk_data
├── chunkers
│ └── maxent_ne_chunker.zip
├── corpora
│ ├── abc.zip
│ ├── alpino.zip
│ ├── biocreative_ppi.zip
│ ├── bro