使用spacy规则化提取自然语言文本信息

六六六六神

已于 2022-05-13 19:00:10 修改

阅读量1.2k

点赞数

分类专栏： python 机器学习文章标签：自然语言处理 python 人工智能

于 2022-05-13 18:53:46 首次发布

本文链接：https://blog.csdn.net/weixin_41848012/article/details/124756861

版权

python 同时被 2 个专栏收录

31 篇文章 0 订阅

订阅专栏

机器学习

18 篇文章 1 订阅

订阅专栏

1. 安装spacy

pip install spicy

spicy还需要载入文本库，使用pip的下载方式：

python3 -m spacy download en_core_web_sm

但是很有可能因为网络问题下载速度非常缓慢，所以可以选择到github上去直接下载（注意和自己的spacy版本匹配）：github下载链接
下载*.tar.gz文件即可。
然后切换到下载路径，

pip install en_core_web_sm-3.1.0.tar.gz

2. spacy的一些基础用法

使用spacy来处理nlp相关的功能还是很强大的，下面是一些基础用法展示：

import spacy
from spacy import displacy
from spacy.matcher import Matcher

nlp = spacy.load("en_core_web_sm")
text = """
Go to the bedroom with the guitars and black bed and empty the board.
"""
doc = nlp(text)
''' 词性提取
'''
print([(w.text,w.tag_) for w in doc])# 词性-细粒度
print([(w.text,w.pos_) for w in doc])# 词性-粗粒度
print([(w.text,w.label_) for w in doc.ents]) # 实体提取

''' 可视化依赖关系
'''
html_str = displacy.render(doc,style="dep")
    with open('spacy_display.html','w',encoding='utf-8') as f:
        f.write(html_str)
''' 匹配
'''
matcher = Matcher(nlp.vocab)
pattern_1 = [
        {"LOWER":"go"},
        {"TEXT":"to"},
        {"TEXT":"the","OP":"?"},
        {"POS":"NOUN"}
] # go to the xxx
pattern_2 = [
        {"POS":"VERB"},
        {"TEXT":"the","OP":"?"},
        {"POS":"NOUN","OP":"+"}
]
matcher.add("go_to_pattern",[pattern_1])
matcher.add("verb_target_pattern",[pattern_2])
matches = matcher(doc)

for match_id, start, end in matches:
    print(nlp.vocab.strings[match_id])
    matched_span = doc[start:end]
    print(matched_span.text)

匹配的写法教程：https://course.spacy.io/en/chapter1

六六六六神

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用spacy规则化提取自然语言文本信息

1. 安装spacypip install spicyspicy还需要载入文本库，使用pip的下载方式：python3 -m spacy download en_core_web_sm但是很有可能因为网络问题下载速度非常缓慢，所以可以选择到github上去直接下载（注意和自己的spacy版本匹配）：github下载链接下载*.tar.gz文件即可。然后切换到下载路径，pip install en_core_web_sm-3.1.0.tar.gz2. spacy的一些基础用法使用spa
复制链接

扫一扫