nltk缺少stopwords\punkt等语料库

1.错误

File "E:\Anaconda_app\lib\site-packages\nltk\data.py", line 701, in find
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')
  
  For more information see: https://www.nltk.org/data.html

  Attempted to load tokenizers/punkt/english.pickle

  Searched in:
    - 'C:\\Users\\FGro/nltk_data'
    - 'E:\\Anaconda_app\\nltk_data'
    - 'E:\\Anaconda_app\\share\\nltk_data'
    - 'E:\\Anaconda_app\\lib\\nltk_data'
    - 'C:\\Users\\FGro\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - ''

2、在线解决
方法一:

>>> import nltk
>>> nltk.download('stopwords')
[nltk_data] Error loading stopwords: <urlopen error [Errno 11004]
[nltk_data]     getaddrinfo failed>

getaddrinfo failed解决:
获取raw.githubusercontent.com的IP

https://www.ipaddress.com/

查询

raw.githubusercontent.com

查到
在这里插入图片描述
选第二个地址,到hosts文件路径C:\Windows\System32\drivers\etc,在hosts文件最后一行加上
185.199.109.133 raw.githubusercontent.com
此时就可以连接到raw.githubusercontent.com网址,但是github网址会变,先查ipaddress

方法二:

>>> import nltk
>>> nltk.download()

弹出框
在这里插入图片描述
在这里选择下载

3.离线下载

网址:http://www.nltk.org/nltk_data/
下载对应的语料,但是一定记得不是直接放到ntlk_data文件夹中,比如stopwords放在
在这里插入图片描述
punkt放在
在这里插入图片描述

还有错误:nltk download(‘punkt’)连接尝试失败

一方面因为nltk文件很大,另一方面当前的网络不太稳定
解决方法:
https://blog.csdn.net/weixin_44633882/article/details/104494276
下载punkt.zip链接:
https://github.com/nltk/nltk_data/blob/gh-pages/packages/tokenizers/punkt.zip

根据提供的引用内容,当出现"[nltk_data] Error loading punkt: <urlopen error [Errno 11004] [nltk_data] getaddrinfo failed>"错误时,可能是由于网络问题导致无法下载所需的语料库。解决此问题的方法如下: 1. 检查网络连接:确保你的计算机连接到互联网,并且网络连接正常。 2. 设置代理:如果你使用的是代理服务器进行网络连接,请确保已正确设置代理。你可以在Python代码中设置代理,例如: ```python import nltk import urllib proxy = urllib.request.ProxyHandler({'http': 'http://<proxy_address>:<proxy_port>', 'https': 'https://<proxy_address>:<proxy_port>'}) opener = urllib.request.build_opener(proxy) urllib.request.install_opener(opener) nltk.download('punkt') ``` 请将`<proxy_address>`和`<proxy_port>`替换为你的代理服务器地址和端口。 3. 手动下载语料库:如果以上方法仍然无法解决问题,你可以尝试手动下载所需的语料库并将其解压到指定目录。首先,你可以在NLTK官方网站上找到所需的语料库文件(https://www.nltk.org/data.html)。然后,将下载的文件解压缩,并将解压后的文件夹放置在NLTK数据目录中。你可以使用以下代码找到NLTK数据目录的路径: ```python import nltk nltk.data.path.append("<path_to_nltk_data_directory>") ``` 请将`<path_to_nltk_data_directory>`替换为你的NLTK数据目录的路径。 请注意,以上方法中的一种或多种可能会解决"[nltk_data] Error loading punkt: <urlopen error [Errno 11004] [nltk_data] getaddrinfo failed>"错误。你可以根据你的具体情况选择适合你的方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值