1 安装nltk
# 我安装的nltk=3.6.2,不同的版本可能会有变化
pip install nltk
# 如果安装比较慢,使用国内镜像源
pip install nltk -i http://pypi.doubanio.com/simple/
# 豆瓣镜像源
http://pypi.doubanio.com/simple/
# 可以在地址栏直接输入查找的包,离线下载,例如:下载tensorflow
http://pypi.doubanio.com/simple/tensorflow
2 离线安装数据集
在下载受到网络和网速的限制,无法在线安装。
(1)下载nltk_data包
github下载地址:https://github.com/nltk/nltk_data/tree/gh-pages
解压后,将nltk_data中的package重命名为nltk_data,nltk_data数据组成文件如下:
chunkers grammars misc sentiment taggers corpora help models stemmers tokenizers
如果提示有punkt错误,进入tokenizers目录下的nltk_data文件,解压punkt.zip文件即可,如果没有punkt.zip可以下载文件。
(2) 查看nltk_data放置在搜索出的目录
# 查看可以放置数据的目录
print(nltk.data.find("."))
# 将nltk_data文件复制到上述的任何一个目录下即可
# 再次强调:此处nltk_data不是直接下载的文件,是下载的文件中的package重命名为nltk_data
3 简单测试
import nltk
sentence = "At eight o'clock on Thursday morning, Arthur didn't feel very good."
# 将文本拆分成句子列表
sens = nltk.sent_tokenize(sentence)
print(sens)
# 对文本分词
tokens = nltk.word_tokenize(sentence)
print(tokens)
# 对文本标注
tagged = nltk.pos_tag(tokens)
print(tagged)