一、概念
1、实体
一切具有特定属性集合的物体都可以称为实体。
2、命名实体
一般包括三大类(实体类、时间类、数字类),七小类(人名、机构名、地名、时间、日期、货币和百分比)。
3、命名实体识别过程
(1)确定实体的边界,即确定哪些词属于实体。
(2)确定实体的类别,即确定实体属于人名或者机构名等。
4、命名实体识别难点
(1)各类命名实体没有严格的命名规范
(2)中文命名实体没有类似英文明确的单词边界及标志
(3)中文分词和命名实体识别相互影响
(4)网络汉语文本实体组成方式更加复杂
(5)现存标注语料老旧、覆盖面低
(6)命名实体歧义消歧困难
5、命名实体识别作用
命名实体识别是信息抽取、问答系统、语法分析、机器翻译等应用的重要工具。
二、主要方法
1、基于规则的方法
主要依靠语言学专家手工构造规则模板,选用特征,如关键字、标点符号、位置词、指向词等,基于不同的规则权值进行判断。
基于规则的方法性能上可解释性强,对于badcase的解决能力高,但构建规则库需要语言学专家且耗费时间长。
2、基于统计的方法
基于统计机器学习的方法主要包括:隐马尔科夫模型、最大熵模型、条件随机场等。
实际上是将命名实体识别转化为一个序列标注任务,这部分工具与分词及词性标注有一定的重合之处。
三、参考
1、《统计自然语言处理》 宗成庆
2、基于规则和条件随机场的中文命名实体识别方法研究 程志刚