win10系统+python3.7
一、NLTK简单说明
自然语言工具包(Natural Language Toolkit,NLTK)是一个Python 库,用于识别和标记英语文本中各个词的词性(parts of speech)。这个项目于2000 年创建,经过15 年的发展,由来自世界各地的几十个开发者共同努力维护。
二、安装nltk
NLTK 模块的安装方法和其他Python 模块一样:
pip install nltk
要么从NLTK 网站直接下载安装包进行安装
要么在anaconda里的environment、pycharm等,都可以通过关键词搜索“nltk”安装。
安装完NLTK库的时候,就要开始安装NLTK自带的文本库 nltk_data。两种安装方法:
三、安装nltk_data
第一种:命令窗口输入python或者打开jupyter然后输入
>>>import nltk
>>>nltk.download()# 进入downloader下载器进行下载我们需要的文本库
>>>nltk.download('punkt')# 下载指定的文本库
回车会打开如下界面
第二种:手动安装
第一步:下载nltk_data包放到指定目录下面
- 到GitHub查找源(下载packets包并将文件名改成 nltk_data)
- 网盘下载(有396.28MB) 提取码:fv38
- 如果需要另外一些包,请访问 http://www.nltk.org/nltk_data/
第二步:将下载好的放入指定位置
打开cmd,输入如下命令:
先写一个没有安装文本库的一个测试语句,
from nltk.book import *
这些位置均可以
测试安装成功,依旧输入from nltk.book import *,如下显示则表示成功:
三、问题处理
-
nltk download(‘punkt’) 连接尝试失败
在线安装punkt会报错,连接错误;选择手动自己先下载下来,解压;然后放到python3指定搜索目录之一下面
包一定放在nltk_data/tokenizers下 -
getaddrinfo failed
修改Server Index地址为http://www.nltk.org/nltk_data/,具体参见,然后Refresh找到自己需要的Download
-
路径问题
第一种:添加环境变量NLTK_DATA,然后重启python
第二中:代码中标注data位置
from nltk import data
data.path.append(r"G:\nltk_data")