自然语言处理之:命名实体识别-1

命名实体识别NER

命名实体识别是定位文档中的专有名词或命名实体的过程,而且这些不同的命名实体被分成了不同的类别,如:人名,地名,机构名等。

  • 2008年定义的命名实体标签集有12个,描述如下:
    在这里插入图片描述
    NER的关键是信息提取,通过存储元组(实体,关系,实体)来实现信息提取,就可以抽取到实体。

可以使用斯坦福标注器来实现NER。

如果命名实体存在,就用NE标记来标注。

import nltk
nltk.download('maxent_ne_chunker')
sentences1 = nltk.corpus.treebank.tagged_sents()[17]
print(nltk.ne_chunk(sentences1, binary=True))
sentences2 = nltk.corpus.treebank.tagged_sents()[7]
print(nltk.ne_chunk(sentences2, binary=True))
print(nltk.ne_chunk(sentences2))

可以进行命名实体识别另一个例子:

import nltk
nltk.download('conll2002')
from nltk.corpus import conll2002
for documents in conll2002.chunked_sents('ned.train')[25]:
    print(documents)

另一个例子进行命名实体识别,并将不同的命名实体划分为把不同的命名实体类别。

import nltk
sentence = "I went to Greece to meet John";
tok=nltk.word_tokenize(sentence)
pos_tag=nltk.pos_tag(tok)
print(nltk.ne_chunk(pos_tag))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

椒椒。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值