NLP spaCy使用(一,简介)
由于最近希望从客户需求端入手,故而必须做需求文档的语义分析,而且,对于NLP一直心中想做的一点事情,正巧,有人推荐spaCy,希望用stanford的NLP+spaCy。一边从文档入手,一边保留些笔记,希望志同道合朋友指正。
什么是spaCy
spaCy是Expolsion(德国)公司发布的一个开源的,以工业化应用为目标的NLP库。用于Python和Cython。该系统采用最新的NLP相关方面的研究结果。就目前的应用而言,该系统更多的用于教学和科研中,离工业化应用还有一定的距离。不过,个人认为,整体的NLP发展阶段也处于探索中后期。
在最新的spaCy版本中,包含了经过训练的“管道”,同时支持全球近60种语言表计划和基于NLP的训练,具备有最先进的速度和神经网络模型,用于标记、解析、命名实体识别、文本分类等,诸如使用 BERT 等预训练转换器进行多任务学习,以及训练后的系统打包、部署和工作流管理。
安装spaCy和环境要求
- 系统要求
操作系统:macOS/OS X, linux, Window(cygwin, MinGW, visual Studio)
python version: 3.6+ 64位
安装包管理系统:pip, conda(conda-forge)
- pip
在使用pip安装spaCy前,需要更新pip及相关工具(setupto