spaCy是世界上最快的工业级自然语言处理工具。 支持多种自然语言处理基本功能。官网地址:https://spacy.io/
spaCy主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等等。
一、spaCy安装
在官网的code里找到安装代码,命令行输入第一个
pip install spacy
python -m spacy download en_core_web_sm
第二个命令巨慢,可能会断掉连接,可以在这里下载他需要的文件
- en_core_web_md-2.2.5.tar
链接:https://pan.baidu.com/s/1zWLDr0YGOcMKjx0P1TizlQ
提取码:0xim - en_core_web_sm-2.2.5.tar
链接:https://pan.baidu.com/s/1yjCn2vN7qwzS8eTez2ocsA
提取码:f5u5
无需解压,安装这两个压缩包
pip install en_core_web_sm-2.2.5.tar.gz
pip install en_core_web_md-2.2.5.tar.gz
不过这时候运行代码还是会报错
nlp = spacy.load('en')
OSError: [E050] Can't find model 'en'. It doesn't seem to be a shortcut link, a Python package or a valid path to a data directory.
需要在管理员模式下运行
python -m spacy download en