pyltp实体识别_命名实体识别,使用pyltp提取文本中的地址

本文介绍了如何利用pyltp库中的Segmentor、Postagger和NamedEntityRecognizer类,结合Singleton模式加载模型,从文本中提取出地名(ns标签)作为地址。
摘要由CSDN通过智能技术生成

首先安装pyltp

单例类(第一次调用时加载模型)

class Singleton(object):

def __new__(cls, *args, **kwargs):

if not hasattr(cls, '_the_instance'):

cls._the_instance = object.__new__(cls, *args, **kwargs)

return cls._the_instance

使用pyltp提取地址

import os

from pyltp import Segmentor, Postagger, NamedEntityRecognizer

from main.models.Singleton import Singleton

class address_extract_model(Singleton):

print('load ltp model start...')

pwd = os.getcwd()

project_path = os.path.abspath(os.path.dirname(pwd) + os.path.sep + ".")

LTP_DATA_DIR = project_path + '\AlarmClassification\main\ltp\model' # ltp模型目录的路径

cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')

pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model') # 词性标注模型路径,模型名称为`pos.model`

ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model') # 命名实体识别模型路径,模型名称为`ner.model`

print('path' + cws_model_path)

segmentor = Segmentor() # 初始化实例

segmentor.load(cws_model_path) # 加载模型

postagger = Postagger() # 初始化实例

postagger.load(pos_model_path) # 加载模型

recognizer = NamedEntityRecognizer() # 初始化实例

recognizer.load(ner_model_path) # 加载模型

def get_model(self):

return self.segmentor, self.postagger, self.recognizer

def get_address_prediction(alarm_content):

model = address_extract_model()

segmentor, postagger, recognizer = model.get_model()

words = segmentor.segment(alarm_content) # 分词

postags = postagger.postag(words) # 词性标注

netags = recognizer.recognize(words, postags) # 命名实体识别

result = ''

for i in range(0, len(netags)):

print(words[i] + ': ' + netags[i])

# 地名标签为 ns

if 's' in netags[i]:

result += words[i] + ','

if len(result) < 1:

result = 'No address!'

print(result)

return result

def get_address(alarm_content):

print("start get_address...")

result = "Exception"

try:

result = get_address_prediction(alarm_content)

except Exception as ex:

print(ex)

print("Output is " + result)

return result

# segmentor.release() # 释放模型

# postagger.release()

# recognizer.release()

运行效果

项目源码 ( 命名实体提取代码位于main/ltp, 模型文件需要到pyltp下载 )

『深度应用』NLP命名实体识别&lpar;NER&rpar;开源实战教程

近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务—命名实体识别(Named Entity Recogni ...

机器学习 - 命名实体识别之Hidden Markov Modelling

概述 命名实体识别在NLP的应用中也是非常广泛的,尤其是是information extraction的领域.Named Entity Recognition(NER) 的应用中,最常用的一种算法模型 ...

pytorch 文本情感分类和命名实体识别NER中LSTM输出的区别

文本情感分类: 文本情感分类采用LSTM的最后一层输出 比如双层的LSTM,使用正向的最后一层和反向的最后一层进行拼接 def forward(self,input): ''' :param inpu ...

使用哈工大LTP进行文本命名实体识别并保存到txt

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明.本文链接:https://blog.csdn.net/broccoli2/article/det ...

神经网络结构在命名实体识别(NER)中的应用

神经网络结构在命名实体识别(NER)中的应用 近年来,基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展.作为NLP领域的基础任务-命名实体识别(Named Entity Recognit ...

【神经网络】神经网络结构在命名实体识别(NER)中的应用

命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图.它是NLP领域中一些复杂任务(例如关系抽取,信息检索等)的 ...

用深度学习做命名实体识别&lpar;二&rpar;:文本标注工具brat

本篇文章,将带你一步步的安装文本标注工具brat. brat是一个文本标注工具,可以标注实体,事件.关系.属性等,只支持在linux下安装,其使用需要webserver,官方给出的教程使用的是Apac ...

学习笔记CB007&colon;分词、命名实体识别、词性标注、句法分析树

中文分词把文本切分成词语,还可以反过来,把该拼一起的词再拼到一起,找到命名实体. 概率图模型条件随机场适用观测值条件下决定随机变量有有限个取值情况.给定观察序列X,某个特定标记序列Y概率,指数函数 e ...

NLP入门(四)命名实体识别(NER)

本文将会简单介绍自然语言处理(NLP)中的命名实体识别(NER).   命名实体识别(Named Entity Recognition,简称NER)是信息提取.问答系统.句法分析.机器翻译等应用领 ...

随机推荐

NGINX 定时器

写在前面 写NGINX系列的随笔,一来总结学到的东西,二来记录下疑惑的地方,在接下来的学习过程中去解决疑惑. 也希望同样对NGINX感兴趣的朋友能够解答我的疑惑,或者共同探讨研究. 整个NGINX系列 ...

MySQL查询重复出现次数最多的记录

MySQL查询的方法很多,下面为您介绍的MySQL查询语句用于实现查询重复出现次数最多的记录,对于学习MySQL查询有很好的帮助作用. 在有些应用里面,我们需要查询重复次数最多的一些记录,虽然这是一个 ...

黄聪:百度知道中对HTML字符实体、字符编号,&amp&semi;开头字符的使用

http://www.w3school.com.cn/tags/html_ref_entities.html 带有实体名称的 ASCII 实体 结果 描述 实体名称 实体编号 " quota ...

rac&lowbar;进行grid自检时提示运行runfixup&period;sh脚本一例

原创作品,出自 "深蓝的blog" 博客,欢迎转载,转载时请务必注明下面出处,否则追究版权法律责任. 深蓝的blog:http://blog.csdn.net/huangyanlo ...

linux里的bootproto的none&comma;static&comma;dhcp有什么区别

这个是网络配置参数:BOOTPROTO=static 静态IP BOOTPROTO=dhcp 动态IP BOOTPROTO=none 无(不指定)通常情况下是dhcp或者static,通过指定方式 ...

ZOJ 3818 Pretty Poem 模拟题

这题在比赛的时候WA到写不出来,也有判断ABC子串不一样不过写的很差一直WA 在整理清思路后重写一遍3Y 解题思路如下: 第一种情况:ABABA. 先判断开头的A与结尾的A,得到A的长度, 接着判断A ...

unit正交相机Size的计算公式

如:相机的大小为800*480,要使相机适应800*480像素的图,则 Size = 相机高/2/像素单位 = 480/2/100 = 2.4

【Egret】里使用audio标签达到默认播放背景音乐

方法一

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值