Atitit NER实体命名识别(Name Entity Recognition
目录
1.1. a. NER实体命名识别(Name Entity Recognition) 1
2. NER抽取方法 3
2.1. 基于规则 3
2.2. 统计方法逐渐成为自然语言处理的主流 3
2.3. 条件随机场(CRF)模型用于命名实体识别。 3
2.4. 2.基于多特征的命名实体识别方法 7 5
2.5. 4.专家知识(词典法 ,人名,地名机构名 8
3. NER关联技术 9
3.1. 分词 9
3.2. 词典匹配 9
3.3. 数字和特殊字符,一般用正则的方法匹配出来 9
3.4. 先边界识别 然后进行类别判定 9
3.5. 相关知识梳理(HMM, MEMM, CRF) 9
3.6. Bootstrapping算法 利用有限的样本资料 建立目标 9
4. NER公开数据集 10
4.1. CoNLL CoNLL 2003 10
4.2. CoNLL2003中, 实体被标注为四种类型:LOC (location, 地名)ORG (organisation, 组织机构名)PER (person, 人名)MISC (miscellaneous, 其他) 10
4.3. OntoNotes 5.0 / CoNNLL 2012 18个类别 10
4.4. 其他公开数据集,包括NLPBA2014, Enron Emails 等等 11
5. NER 标注方法有很多种, 这里主要介绍3种最常见。 11
5.1. IOB 标注法 11
5.2. BIOES BIOES 是目前最通用的命名实体标注方法。 11
5.3. Makeup 是 OntoNotes 使用的标注方法, 思路比较简单, XML, 比如: 12
6. 问题 12
1.1.a. NER实体命名识别(Name Entity Recognition)
又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
命名实体识别(Named Entity Recognition, NER)是NLP领域一个非常非常重要的方向,比如人名、地名通用性的实体识别,还有像车型名、车款名这些垂直领域的实体,在这借着实体识别的案例整理下相关的模型以及如何结合这些模型与深度神经网络实现效果更好的NER
狭义上,是识别出人名、地名和组织机构名这三类命名实体(时间、货币名称等构成规律明显的实体类型可以用正则等方式识别
实体命名识别,这是一项相对比较成熟的技术,有一些现成的工具可以用来做这件事情
括实体抽取里面有NER的方法,NER有传统的CRF的方法,有基于循环神经网络+CRF的方法,也有端到端的联合标注的抽取方法,这种方法同时输出实体和实体之间关系的三元组
过程组成
编辑
通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个