Spacy安装填坑1: python -m spacy dowmload en失败
python -m spacy download en
python -m spacy download de
利用spacy进行自然语言处理任务时,教程里面一般都会使用英语-德语的翻译平行语料,使用python -m spacy download en下载安装模型,报错:
requests.exceptions.ConnectionError: HTTPSConnectionPool(host=‘raw.githubusercontent.com’, port=443): Max retries exceeded with url: /explosion/spacy-models/master/shortcuts-v2.json (Caused by NewConnectionError(’<urllib3.connection.VerifiedHTTPSConnection object at 0x000002B558A8CD68>: Failed to establish a new connection: [Errno 11004] getaddrinfo failed’,))
多次试验终于找到解决办法:去spacy的GitHub上线先手动下载需要的语言模型,然后在pip install. 具体如下:
1.进入github主页
https://github.com/explosion/spacy-models/releases
并点击tag以弹出所有的语言模型列表
2.点击进入语言模型的详情页,并下拉找到文件下载链接!!!重要!不要再下图所示的列表上点下载,文件不对,一定要进模型详情页里面去下载!!!
并下拉找到文件下载链接
这里给出英文和德文模型的链接,可直接下载
https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-2.3.1/en_core_web_sm-2.3.1.tar.gz
然后在下载好的文件所在路径下,代开cmd,pip install *******-2.2.5.tar.gz 安装即可
命名说明:sm/md/lg表示模型的大小(small, medium, large)
调用方式:
import spacy
en = spacy.load('en_core_web_md')
de = spacy.load('de_core_news_md')