python命名实体抽取学习记录（1）

最新推荐文章于 2025-09-22 20:33:59 发布

原创

最新推荐文章于 2025-09-22 20:33:59 发布 · 2.5w 阅读

74 ·

CC 4.0 BY-SA版权

本文介绍了命名实体识别的基本概念，包括实体类型和识别方法，如基于规则和基于统计的模型。提到了命名实体识别的步骤，强调了统计方法如HMM在性能上的优势。还分享了使用Python调用哈工大LTP库进行命名实体识别的实践，并展示了如何通过正则表达式提取组织名。

一、命名实体识别基本概念

信息有多种表现形式，一个重要的形式就是结构化数据：即实体和关系的规范和可预测的组织。而现实生活中大多数自然语言句子是非结构化数据，为从文本获得其意义，我们首先需要将自然语言数据转化为结构化数据，然后利用强大的查询工具，如sql。这种从文本获取意义的方法被称为信息提取。

文本信息提取处理的顺序是：首先，使用句子分割器将该文档的原始文本分割成句，然后使用分词器将每个句子进一步细分为词，之后对每个句子进行词性标注，对每个标注过的句子进行命名实体识别，最后使用关系识别搜索文本中不同实体间可能的关系。所以在对文档进行命名实体识别之前必须对文档进行分句，分词和词性标注。在命名实体识别中，我们需要分割和标注可能组成具有某种关系的实体，通常是名词短语。

命名实体识别（Named Entity Recognition）主要是识别出文本中出现的专有名称和有意义的数量短语并进行分类。命名实体（Named Entity ）主要包括实体（组织名，人名，地名）、时间表达式（日期、时间）和数字表达式（货币值、百分数等）。其中，对时间表达式和数字表达式的识别相对于对组织名，人名和地名这些实体的识别来说要简单些，因为时间表达式和数字表达式在形式上有规律可循，而针对组织名，人名和地名，由于其具有开放性和发展性的特点，识别难度比较大。

目前已有的命名实体识别的方法主要分为两大类：基于规则的方法和基于统计的方法。

基于规则的方法主要是根据待识别的命名实体的语言学上的表现形式，人为设定一些规则来识别命名实体的方法。这类方法实现的效果很大程度上依赖于规则的设定且需要大量的专业知识，而且因为不同领域内的实体具有不同的规则，所以对每个新领域的文本处理都要重新设定规则。使用基于规则的方法来进行命名实体识别比较消耗时间和消耗人力。

基于统计的方法主要利用原始的或经过加工的（人工标注的）语料进行训练，其语料的加工（标注）不需要非常

最低0.47元/天解锁文章

4 条评论

qq_40281027 2020.08.29
[code=python] if(re.search('Ni$',word)):这句话中的Ni$是啥意思 [/code]

Mr_Sworder 2020.05.03
老哥，回下评论啊，那个“out_file.txt的结果是：”后面没有结果啊

qq_41518002 2020.03.18
大佬，模型怎么做啊

老三是只猫 2018.07.10
大佬你的图挂掉了能重新分享一下吗？

xixihahaheihie 2017.03.08
总会出现python.exe已停止工作，这是怎么回事呀。是跟输入文件有关系吗。
- 孔雀竹鱼回复xixihahaheihie 2021.04.07
  可能是你的pycharm中的python解释器路径不对

xixihahaheihie 2017.03.07
您好，我在运行命名实体识别的时候出现了这个错误。Traceback (most recent call last): File "E:/pyltp-master/example/aa.py", line 71, in <module> sents = sentence_splitter(news_list[1].encode('utf-8')) IndexError: list index out of range 请教您一下原因。