nltk缺少stopwords\punkt等语料库

最新推荐文章于 2024-07-07 09:48:56 发布

study_&

最新推荐文章于 2024-07-07 09:48:56 发布

阅读量665

点赞数

本文链接：https://blog.csdn.net/goodgoodstudy___/article/details/117906966

版权

1.错误

File "E:\Anaconda_app\lib\site-packages\nltk\data.py", line 701, in find
    raise LookupError(resource_not_found)
LookupError: 
**********************************************************************
  Resource punkt not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('punkt')
  
  For more information see: https://www.nltk.org/data.html

  Attempted to load tokenizers/punkt/english.pickle

  Searched in:
    - 'C:\\Users\\FGro/nltk_data'
    - 'E:\\Anaconda_app\\nltk_data'
    - 'E:\\Anaconda_app\\share\\nltk_data'
    - 'E:\\Anaconda_app\\lib\\nltk_data'
    - 'C:\\Users\\FGro\\AppData\\Roaming\\nltk_data'
    - 'C:\\nltk_data'
    - 'D:\\nltk_data'
    - 'E:\\nltk_data'
    - ''

2、在线解决
方法一：

>>> import nltk
>>> nltk.download('stopwords')
[nltk_data] Error loading stopwords: <urlopen error [Errno 11004]
[nltk_data]     getaddrinfo failed>

getaddrinfo failed解决：
获取raw.githubusercontent.com的IP
到

https://www.ipaddress.com/

查询

raw.githubusercontent.com

查到
在这里插入图片描述
选第二个地址，到hosts文件路径C:\Windows\System32\drivers\etc，在hosts文件最后一行加上
185.199.109.133 raw.githubusercontent.com
此时就可以连接到raw.githubusercontent.com网址，但是github网址会变，先查ipaddress

方法二：

>>> import nltk
>>> nltk.download()

弹出框
在这里插入图片描述
在这里选择下载

3.离线下载

网址：http://www.nltk.org/nltk_data/
下载对应的语料，但是一定记得不是直接放到ntlk_data文件夹中，比如stopwords放在
在这里插入图片描述
punkt放在

还有错误：nltk download(‘punkt’)连接尝试失败

一方面因为nltk文件很大，另一方面当前的网络不太稳定
解决方法：
https://blog.csdn.net/weixin_44633882/article/details/104494276
下载punkt.zip链接：
https://github.com/nltk/nltk_data/blob/gh-pages/packages/tokenizers/punkt.zip