# 本文自《NLP汉语自然语言处理——原理与实践》(郑捷 著)第一章整理而来。
1. 安装 python 2.7
2. 安装 Numpy
pip install numpy
3. 安装 anaconda
从 https://conda.io/miniconda.html 下载所需版本,
执行安装命令,如 bash Miniconda2-latest-Linux-x86_64.sh
4. 安装 scipy
conda install scipy
5. 安装 Tornado
pip install Tornado
6. 安装 NLTK 开发环境
pip install nltk
7. 下载nltk语料库
在命令行模式下,输入 python ,进入Python 交互行
>>> import nltk
>>> nltk.download()
弹出下载界面,点击 Download 进行下载,下载完成后,点击All Packages选项卡,选中下载失败的项,并点击Download重新下载。
(nltk的语料库都是英文语料库,如果做中文处理,不必下载全部,可按需下载)。
8. 将开源的中文NLP系统整合进NLTK,国内使用CRF做中文分词的开源系统主要为哈工大的HIT LTP语言技术平台。
a. pip install pyltp
b. 从