spacy中文句法分析详解

最新推荐文章于 2025-04-24 21:47:02 发布

AI_Frank

最新推荐文章于 2025-04-24 21:47:02 发布

阅读量5.2k

点赞数 3

分类专栏： python NLP 文章标签： python 人工智能

本文链接：https://blog.csdn.net/qq_30653631/article/details/109809978

版权

python 同时被 2 个专栏收录

58 篇文章

订阅专栏

NLP

10 篇文章

订阅专栏

最近在做中文命名实体识别的研究，因此打算使用spacy来获取句法分析的结构信息，接下里大致说下spacy中所涉及到的一些方法和功能，目前仅仅介绍我使用到的，有不完善的地方请大家谅解。

一、首先是安装spacy的zh_core_web_trf或者zh_core_web_md,我这里使用的是zh_core_web_trf,具体的安装方法如下：
首先先确认你没有安装spacy，因为中文版本冲突问题，需要直接进行zh_core_web_trf的安装，它会将用到的依赖包一块安装上，包括spacy。（可能你们也有别的安装方法，可以解决冲突）
1>先去这个地址下载地址下载安装包，我这里选择的是transformer版本的中文包。

2> cd到下载目录，使用pip命令进行安装。

pip install zh_core_web_trf-3.0.0a0.tar.gz

二、使用方法介绍

import spacy

parser = spacy.load('zh_core_web_trf')

doc = parser('小明在上海虹口足球场观看足球比赛。')
for token in doc[:17]:
    print("{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\t{7}\t{8}\t{9}\t{10}\t{11}\n".format(
        token.text,   # 文本
        token.idx,  # 索引值（即在原文中的定位）
        token.lemma_,  # 词元(lemma)
        token.head,   # 当前Token的Parent Token，从语法关系上来看，每一个Token都只有一个Head。
        token.dep_, # 依存关系
        token.children, # 语法上的直接子节点
        token.ancestors, # 语法上的父节点
        token.is_punct, # 是否为标点符号
        token.is_space,  # 是否为空格
        token.shape_,  # 字个数用x表示，如：两个字就是xx
        token.pos_,  # 词性
        token.tag_  # 标记
    ))