中文NLP技术学习系列文章,将以NLTK
系统为主体框架,通过整合相关的开源系统来学习NLP
中涉及的所有模块。下面是我的PC环境:
- win10 64bits
- python 3.6.8+pip+virtualenv
- PyCharm 2018.3.5 (Professional Edition)
本系列Demo地址:NLPDemos
1. NLTK平台搭建
NLTK,Nature Language Tool Kit
,即自然语言工具包,是一个免费、开源且使用Python程序构建的自然语言数据工作平台。NTLK系统提供了易于使用的界面和超过50种语料库、词汇资源,同时还包含一套分类、分词、词干、标注、分析和语义推理的基本框架,更为重要的是我们可以将目前比较好的NLP开源应用系统整合到NLTP平台来开发NLP项目。
NLTK平台特征:
- 跨平台。完全兼容Windows、Linux等系统;
- 跨语言。允许自由整合基于Java、C++、Python等语言实现的NLP系统;
- 预先包含绝大多数的NLP常用功能,即各类基于规则的或基于统计的词法、句法、语义等分析模块;
- 系统内存开销小;
1.1 安装Python3.6和第三方库
(1) 安装python3.6.8
(2) 安装网络包
pip install Tornado
(3) 安装数学运算包
pip install numpy
pip install scipy
1.2 搭建NLTK平台
(1) 安装NLTK开发环境
pip install nltk
(2) 下载中文语料库
# NLTK_Download.py
import sys
import nltk
import importlib
# 加载sys库
importlib.reload(sys)
# 打开NLTK Downloader下载页面
nltk.download()
执行脚本python NLTK_Download.py
,看到如下界面:
NLTK平台提供了50种语料库、词汇库,但默认使用的都是英文语料库。由于我们研究的是中文NLP,因此不必要下载所有语料库,就我所知Sinica
是中央研究院提供的一个繁体中文语料库。
2. LTP环境搭建
LTP(3.4.0),Language Technology Platform
,即语言技术平台,是哈尔滨工业大学开发的一整套中文语言处理系统ÿ