nlp工具库spacy

duoyasong5907

已于 2022-11-29 12:55:36 修改

阅读量949

点赞数

分类专栏： AI与ML 文章标签：自然语言处理人工智能深度学习

于 2022-11-29 11:21:54 首次发布

本文链接：https://blog.csdn.net/duoyasong5907/article/details/128090703

版权

AI与ML 专栏收录该内容

68 篇文章 3 订阅

订阅专栏

文章目录

spacy能做什么
如何安装
案例分词功能

spacy是一个辅助自然语言处理的工具库。

spacy能做什么

它集成了各种实用的句子分析功能，包括分词、词性分析、词性还原等等，所有功能特性可参考官网 spacy-101的features一章，有Tokenization、Part-of-speech (POS) Tagging等等。

如何安装

它易于安装。参考官网 Install spaCy，完整的spacy安装分两步：
1. 用pip安装spacy。
2. 根据你要分析的语言，安装语言模型。比如对于英语，可以安装en_core_web_sm。因为网络原因，这条命令大概率失败，可参考NLP Spacy中en_core_web_sm安装问题，及最新版下载地址下载语言模型。

案例分词功能

阅读官网 spacy-101的Tokenization一节，可以了解该库的分词功能。由于某个rnn教程用到了它的分词功能，笔者会试图翻译这一节。

在处理时，spacy会先将文本分词，比如把它分成单词、标点符合，等等。比如句子尾部的标点符号应当被分开，而"U.K."应当维持一个单词。每个Doc对象包含了一些token对象，可供遍历：

import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
for token in doc:
    print(token.text)