作者:禅与计算机程序设计艺术
1.简介
命名实体识别(Named Entity Recognition,NER)任务是给定一段文本中的人名、地名、机构名等实体,对其中的每一个实体进行正确的分类和标记。例如在一份文档中提到“微软”这个组织,如果它是一个人名、地名或者机构名,那么我们需要将它标注为相应的类型。NER任务是在自然语言处理领域中最具挑战性的一个任务之一。这是因为命名实体的种类繁多,且同一个实体在不同语境下的表述也会不一样。因此,要想设计一个准确高效的系统,就需要充分利用上下文信息,结合大量的训练数据。因此,以下的主要内容将围绕中文、英文、日文等语言对命名实体识别进行讨论。
2.基本概念术语说明
(1)命名实体(Entity)
命名实体是指一个固定的意义或含义范围,如某个国家、城市、姓名、组织机构等。
(2)标签(Label)
标签是用于描述实体类型的标记符号,如ORGANIZATION表示该实体是一个机构,PER表示该实体是一个人的名字。
(3)训练数据集(Training Dataset)
训练数据集是用于训练模型的大型语料库,包括许多已知实体的标注数据。