第四章 实体识别和扩展
实体识别
命名实体识别任务是识别出文本中实体的命名性指称项,并标明其类别,一般来说,是识别出待处理文本中的三大类(实体类、时间类、数字类)和七小类(人名、机构名、地名、时间、日期、货币和百分比)
过程
命名实体识别过程通常包括两个部分:
- 识别实体别界
- 确定实体类别(人名、地名、机构名…)
难点
(1)命名实体形式多变
- 人名:姓氏的用字是有限制的,但是名的用字很灵活
- 地名:通常是用若干个字组成地名,但可能存在一些简称或者带有后缀名
- 机构名:可能包含命名性成分、修饰性成分、表示地名的成分以及关键词成分等
(2)命名实体的语言环境复杂
基于规则的实体识别方法
大致有两种方法:基于规则的方法;基于机器学习的方法
基于规则的方法
- 优点:准确率高,便于推理
- 缺点:成本昂贵,移植性差
最具代表性的方法是基于命名实体词典的方法,采用字符串完全匹配或部分匹配的方式。经典的方法有:
- 基于正向最大匹配的方法
- 基于逆向最大匹配的方法
- 基于最短路径的方法
规则举例:
- 中文人名的识别规则示例:<姓名><名字>
- 中文组织名的识别规则示例:{[人名][组织名][地名][核心名]}<指示词>
- 中文地名的识别规则示例:<名字部分><指示词>
基于机器学习的实体识别
利用预先标注好的语料训练模型,使得模型学习到某个字或词作为命名实体组成部分的概率,进而计算一个候选字段作为命名实体的概率值,如果大于一个阈值,则识别为命名实体。
可分为两种方法:基于特征的方法;基于神经网络的方法
基于特征的方法
常用的机器学习模型:
- 语言模型
- 隐马尔科夫模型
- 最大熵模型
- 错误驱动的学