命名实体识别（基于规则-无监督学习-机器学习-深度学习）

最新推荐文章于 2025-03-09 10:36:55 发布

Weiyaner

最新推荐文章于 2025-03-09 10:36:55 发布

阅读量1.3w

点赞数 11

分类专栏：自然语言处理文章标签：机器学习深度学习知识图谱

本文链接：https://blog.csdn.net/weixin_42327752/article/details/121277591

版权

本文详细介绍了命名实体识别（NER）的任务背景、标注语料库、工具库、序列标注标签方案以及各种NER方法，包括规则、无监督、机器学习和深度学习。深度学习模型如Bi-LSTM+CRF已成为NER的标准配置，但也面临数据标注复杂性、实体类型多样、实体重叠和计算资源限制等挑战。未来研究方向包括多类别实体、嵌套实体和结合知识图谱的NER方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 简介

命名实体识别（Named Entity Recongnition，NER）是自然语言处理中的一个基础任务，也是知识图谱构建的关键步骤。一句话就是，NER从自由文本里面识别出预定义的文本片段。

在2005年之前，实体识别任务数据集主要是对新闻做的标注，实体类别数量较少，如实体、时间、数字三大类，人名、机构名、地名、时间、日期、货币和百分比7小类。现在NER任务已经深入到各个垂直领域，比如医疗，金融，法律等等。（通用类实体和特定领域类实体）

2 NER标注语料库

对现有公开评测任务使用的NER语料库进行了汇总，包括链接地址、类别个数以及语料类型。如下图。
在这里插入图片描述

3 NER工具库

目前已经有很多现成的（off-the-shelf）NER工具，论文（见参考文献）对学术界和工业界一些NER工具进行汇总，工具中通常都包含预训练模型，可以直接在自己的语料上做实体识别。如果涉及到自己所在特定的领域，还需要依据待抽取领域语料重新训练模型。
在这里插入图片描述

4 序列标注标签方案

在这里插入图片描述 BIO：标识实体的开始，中间部分和非实体部分
BIOS：增加S单个实体情况的标注
BIOSE：增加E实体的结束标识
下面是BIO和BIOSE的举例

采用不同的标注体系，会对模型产生不同的影响。“BIO”、“BMES”、“BIOES”是常用的三种标签体系，此外还有BIO、BIOSE、IOB、BILOU、BMEWO等，其思想在于一个实体词拥有起始位置和终止位置，而每个字符都充当了构成一个实体词的特定成分，例如：