安装和使用nltk

1 安装nltk

# 我安装的nltk=3.6.2,不同的版本可能会有变化
pip install nltk

# 如果安装比较慢,使用国内镜像源
pip install nltk -i http://pypi.doubanio.com/simple/

# 豆瓣镜像源
http://pypi.doubanio.com/simple/

# 可以在地址栏直接输入查找的包,离线下载,例如:下载tensorflow
http://pypi.doubanio.com/simple/tensorflow

2 离线安装数据集

在下载受到网络和网速的限制,无法在线安装。

(1)下载nltk_data包

github下载地址:https://github.com/nltk/nltk_data/tree/gh-pages

解压后,将nltk_data中的package重命名为nltk_data,nltk_data数据组成文件如下:

chunkers grammars misc sentiment taggers corpora help models stemmers tokenizers

如果提示有punkt错误,进入tokenizers目录下的nltk_data文件,解压punkt.zip文件即可,如果没有punkt.zip可以下载文件。

(2) 查看nltk_data放置在搜索出的目录

# 查看可以放置数据的目录
print(nltk.data.find("."))
# 将nltk_data文件复制到上述的任何一个目录下即可
# 再次强调:此处nltk_data不是直接下载的文件,是下载的文件中的package重命名为nltk_data

3 简单测试

import nltk
sentence = "At eight o'clock on Thursday morning, Arthur didn't feel very good."
​
# 将文本拆分成句子列表
sens = nltk.sent_tokenize(sentence)
print(sens)
​
# 对文本分词
tokens = nltk.word_tokenize(sentence)
print(tokens)
​
# 对文本标注
tagged = nltk.pos_tag(tokens)
print(tagged)
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值