【机器学习bug记录】windows安装NLTK包报错:Resource punkt not found.

项目场景:

机器学习中有一部分是做文本分词,将文本分离成独立的单词。需要用到python包NLTK,Natural Language Toolkit,自然语言工具集,这个工具在处理文本方面有很多功能强大的操作。但是通过pip install nltk安装后,使用过程中遇到了问题:Resource punkt not found.


问题描述

代码

from nltk.tokenize import word_tokenize
string = "The science of today is the technology of tomorrow"
# 分词
print(f"分词:\n {word_tokenize(string)}")

运行后报错如下:

LookupError: Resource punkt not found.
报错详情


原因分析:

从报错来看是缺少了puntk,需要下载解决.


解决方案:

方法一:可以按照报错提示去解决这个问题。

import nltk
nltk.download('punkt')

方法二:去网站NTLK Data下载puntk。
下载puntk
下载之后是一个puntk.zip压缩包,进行解压缩。

报错里还有一个提示,尝试从下面这些目录中查找tokenizers/puntk/english.pickle

具体报错信息
这个puntk.zip可以解压到报错中提示的目录下,而我练习的环境是虚拟环境,所以就把puntk.zip解压到了venv中,方便管理。截图如下,注意目录nltk_data/tokenizers是根据报错提示自己手动创建的。
解压之后的目录情况

puntk配置好之后,重新运行刚开始的代码,功能已经正常:
功能正常

其他相似报错,解决方法基本一样:
Resource stopwords not found.
Resource stopwords not found
Resource averaged_perceptron_tagger not found.
Resource averaged_perceptron_tagger not found

Resource brown not found.
Resource brown not found

如果官方网站下载不下来,可以从这儿下:nltk相关包下载

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值