什么是命名实体识别?
命名实体识别又称专名识别,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体识别一般指的是文本中具有特定意义或指代性强的实体。
通常包括:人名、地名、机构名、日期时间、专有名词等。通常包括两部分:
- 实体的边界识别
- 确定实体的类型(人名、地名、机构名或其他)
NER系统就是从非结构化的输入文本中抽取上述实体。并且可以按照业务需求识别出更多类别的实体。比如产品名称、型号、价格等。因此这个实体概念可以很广。只要是业务需要的特殊文本片段都可以称为实体。
学术上NER所涉及的命名实体一般包括3打类(实体类、时间类、数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。
实际应用中,NER模型通常只要识别出人名、地名、组织机构名、日期时间即可。一些系统还会给出专有名词的结果(比如缩写、会议名、产品名等)
货币、百分比等数字类型可以通过正则搞定,另外,在一些应用场景下,给出特定领域内的实体,如书名、歌曲名、期刊名等。
命名实体识别的价值和应用领域
命名实体识别是NLP中的一项基本任务,是关系抽取、事件抽取、知识图谱、信息提取、问答系统、句法分析、机器翻译等诸多NLP任务的基础,
被广泛应用在自然语言处理领域,同时在自然语言技术走向实用化过程中占据重要地位。
- 事件检测
- 信息检索
- 语义网络
- 机器翻译
- 问答系统
命名实体识别的研究现状和难点
命名实体识别档当前并不是一个大热的研究课题**,因为学术界部分学者认为这是一个已经解决了的问题**。但也有学者认为这个问题还没有很好的解决,原因有:
- 命名实体识**别只是在有限的文本类型(主要是新闻语料中)和实体类别(**主要是人名、地名)中取得了效果
- 与其他信息检索领域相比,实体命名评测语料较小,容易产生过拟合
- 命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要
- 通用的识别多种类型的命名实体的系统性很差。
同时,中文的命名实体识别与英文的命名实体识别相比,挑战更大,目前未解决的难题更多。英语中的命名实体具有比较明显的形式标志,即实体中的每个词的第一个字母要大写,所以对实体边界的识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注任务而言,实体边界的识别更加困难。汉语命名实体识别的难点主要存在于:
- 汉语文本中没有类似的英文文本中空格之类的显示表示词的边界标识符,命名实体识别第一步就是确定词的边界,即中文分词。
- 汉语分词和命名实体识别互相影响。
- 处理英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型。
- 现代汉语文本,尤其是网络文本,常出现中英文交替使用,此时汉语命名实体识别的任务还包括识别其中的英文命名实体
- 不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征
- 现代汉语日新月异的发展给命名实体识别也带来了新的困难:(1)标注语料老旧,覆盖不全。譬如说,近年来起名字的习惯用字与以往相比有很大的变化,以及各种复姓识别、国外译名、网络红人、流行用语、虚拟人物和昵称的涌现。(2)命名实体歧义严重,消歧困难
命名实体识别的解决方案
命名实体识别一致是NLP研究热点,从早期基于词典和规则的方法、到传统机器学习的方法、到近年来基于深度学习的方法。其研究进展流程图为:
- 基于规则和字典的方法
- 基于统计学习的方法
- 隐马尔可夫模型
- 最大熵模型
- 支持向量机
- 条件随机场
基于深度学习的方法
- NN/CNN-CRF模型
- RNN-CRF模型
总结
会根据比赛,将知识抽取给其搞明白,会构建自己的知识图谱,将其全部都搞定都行啦,然后用于自己的研究。