自然语言处理基础技术工具篇之spaCy

spaCy简介

  • spaCy是世界上最快的工业级自然语言处理工具。 支持多种自然语言处理基本功能。
  • 官网地址:https://spacy.io/
  • spaCy主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等等。

spaCy

安装:pip install spaCy
国内源安装:pip install spaCy -i https://pypi.tuna.tsinghua.edu.cn/simple
import spacy
nlp = spacy.load('en')
doc = nlp(u'This is a sentence.')

1.tokenize功能
for token in doc:
    print(token)
This
is
a
sentence
.
2.词干化(Lemmatize)
for token in doc:
    print(token, token.lemma_, token.lemma)
This this 1995909169258310477
is be 10382539506755952630
a a 11901859001352538922
sentence sentence 18108853898452662235
. . 12646065887601541794
3.词性标注(POS Tagging)
for token in doc:
    print(token, token.pos_, token.pos)
This DET 89
is VERB 99
a DET 89
sentence NOUN 91
. PUNCT 96
4.命名实体识别(NER)
for entity in doc.ents:
    print(entity, entity.label_, entity.label)
5.名词短语提取
for nounc in doc.noun_chunks:
    print(nounc)
a sentence

欢迎关注【AI小白入门】,这里分享Python、机器学习、深度学习、自然语言处理、人工智能等技术,关注前沿技术,求职经验等,陪有梦想的你一起成长。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值