D3交互式可视化Python自然语言工具包命名实体识别

亚图跨际

已于 2022-05-28 07:58:25 修改

阅读量646

点赞数

分类专栏：数据科学文章标签： python 自然语言处理 spacy 命名实体识别

于 2021-09-26 17:50:08 首次发布

本文链接：https://blog.csdn.net/jiyotin/article/details/120493890

版权

数据科学专栏收录该内容

47 篇文章 2 订阅

订阅专栏

命名实体识别 (NER) 可能是信息提取的第一步，旨在将文本中的命名实体定位和分类为预定义的类别，例如人名、组织、位置、时间表达、数量、货币价值、百分比等。 NER 在自然语言处理 (NLP) 的许多领域都有使用，它可以帮助回答许多现实世界的问题。

本文介绍如何使用 NLTK 和 SpaCy 构建命名实体识别器，识别原始文本中的人、组织或位置等事物的名称。

自然语言工具包

import nltk
from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

信息提取

我们将词标记化和词性标记应用于句子。我们得到一个元组列表，其中包含句子中的各个单词及其相关的词性。

现在我们将实现名词短语分块，以使用正则表达式来识别命名实体，该正则表达式由指示句子应该如何分块的规则组成。

我们的组块模式包含一个规则，即当组块器找到一个可选的限定词 DT 时，应该形成一个名词短语 NP，然后是任意数量的形容词 JJ，然后是一个名词 NN。

块解析

使用这种模式，我们创建了一个块解析器并在我们的句子上测试它。

输出可以被读取为树或以 S 为第一级的层次结构，表示句子。我们也可以以图形方式显示它。

实体

import spacy
from spacy import displacy
from collections import Counter
import en_core_web_sm
nlp = en_core_web_sm.load()

Spacy 的优点之一是我们只需要应用一次 nlp，整个后台管道将返回对象。

从文章中提取命名实体

接下来，我们逐字逐句提取词性并对这句话进行词形还原。

[(x.orth_,x.pos_, x.lemma_) for x in [y 
                                      for y
                                      in nlp(str(sentences[20])) 
                                      if not y.is_stop and y.pos_ != 'PUNCT']]

最后，我们可视化整篇文章的实体。

源代码

项目：D3交互式可视化Python电子邮件数据集命名实体识别

源代码

详情参阅 - 亚图跨际

亚图跨际

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
D3交互式可视化Python自然语言工具包命名实体识别

命名实体识别 (NER) 可能是信息提取的第一步，旨在将文本中的命名实体定位和分类为预定义的类别，例如人名、组织、位置、时间表达、数量、货币价值、百分比等。 NER 在自然语言处理 (NLP) 的许多领域都有使用，它可以帮助回答许多现实世界的问题，例如：新闻文章中提到了哪些公司？投诉或评论中是否提到了特定产品？本文介绍如何使用 NLTK 和 SpaCy 构建命名实体识别器，识别原始文本中的人、组织或位置等事物的名称。内容自然语言工具包导入库信息提取介绍及 Python 脚本分块及其
复制链接

扫一扫