实体是知识图谱的基本单元,也是文本中承载信息的重要语言单位。
按照国际公开评测(automatic content extraction, ACE)的定义,在文本中对实体的引用(entity mention,或称“指称项”)可以有三种形式:命名性指称、名词性指称和代词性指称。
- 例如:[中国]乒乓球男队主教练][刘国梁]出席了会议,[他]指出了当前经济工作的重点。
- 实体概念“刘国梁”的指称项有三个,
- 其中,“中国乒乓球男队主教练”是名词性指称,“刘国梁”是命名性指称,“他”是代词性指称
- 这里主要研究命名性实体
文章目录
一、实体识别
1、任务概述
命名实体识别:识别出文本中实体的命名性指称项,标注其类别。
- 三大类:实体类,时间类,数字类
- 七小类:人名,地名,组织名,时间,日期,货币和百分比
(1)实体识别的难点(七小类为例)
时间,日期,货币和百分比的构成有比较明显的规律,识别起来相对容易;人名、地名和机构名用字灵活,识别的难度也大。这里指的是这三类的识别。
命名实体识别的过程,通常包括两部分:
- 识别实体边界
- 确定实体类别(人名、地名和机构名等)
命名实体识别的难点:
- 命名实体形式多变:内部结构复杂,对中文来说尤其如此
- 人名:包含姓氏和名,姓的用字是有限制的,但是名的用法灵活。还有很大其他的形式,使用字号代替人,姓+前缀/后缀以及职务名代替人。如杜甫,杜子美,子美是同一个人,李杜则是一个简称。
- 地名:若干个字组成,可能包括作为后缀的关键字。也有一些简称。如:湖北,湖北省,鄂
- 机构名:
- 包含命名性成分,修饰性成分,表示地名的成分以及关键词成分。eg:北京百得投资咨询公司;
- 机构名嵌套子机构名,eg:北京大学附属小学
- 简称形式,eg:中国奥委会
- 命名实体的语言环境复杂:在不同语境下可能就不是实体
- 人名:彩霞,有时是人名,有时是自然现象
- 地名:河南,有的是省名,有的是泛指
- 机构名:新世界,有时是机构名,有时是短语
- 汉语命名实体识别 vs. 英语命名实体识别:
- 汉语文本没有类似英文文本空格之类的显示标示词边界的标示符,分词与命名实体识别相互影响;
- 英文命名实体往往首字母大写
(2)命名实体识别方法
- 基于规则的方法
- 优点:准确率较高、接近人的思考方式、表示直观、易于推理
- 缺点:成本昂贵、规则定制依赖语言学家和领域专家、难移植到新领域
- 基于机器学习的方法
- 优点:更健壮和灵活、比较客观、不需要人工干预和领域知识
- 缺点:需要人工标注数据、数据稀疏、搜索空间大(会导致巨大的空间开销,影响效率)
2、基于规则的实体识别方法
基本思路:首先可以定制简单的基本规则,然后在各种语料库中,通过对基于规则方法的实验结果进行错误分析,不断改进规则,最后直到识别出更多更准的命名实体为止。
基于命名实体词典的方法:采用字符串完全匹配或部分匹配的方式
- 基于正向最大匹配的方法
- 基于逆向最大匹配的方法
- 基于最短路径的方法
缺点:人力物力(专家)、多规则可能存在冲突(解决:优先级排序,但不具有通用性)
3、基于机器学习的实体识别
基本思想:利用预先标注好的语料训练模型,使模型学习到某个字或词作为命名实体组成部分的概率,进而计算一个候选字段作为命名实体的概率值。若大于某一阈值,则识别为实体。
优点:鲁棒性好、模型构建代价较小
(1)基于特征的方法
机器学习模型 + 人工设计的大量特征(充分发现和利用实体所在的上下文特征和实体的内部特征,包括词形、词性、角色特征等)
常用模型:语言模型、HMM模型、最大熵模型、错误驱动的学习方法、决策树方法、DL-CoTrain和CoBoost等
(根据具体任务和需求选择合适的模型,也可是集成学习)
流程:特征选择=》模型学习=》样本预测=》后处理(eg:合并标签)
最广泛应用的方法:基于字标注的模型,该类模型将命名实体识别看作一个序列标注的任务。最具代表性的是基于条件随机场的模型。
(2)基于特征的方法——基于条件随机场的命名实体识别
(2)基于神经网络的方法
主要步骤:
- 特征表示:设计和搭建神经网络模型并利用其将文字符号表示为分布式特征信息;
- 模型训练:利用标注数据,优化网络参数,训练网络模型;
- 模型分类:利用训练的模型对新样本进行分类,进而完成实体识别
典型方法:LSTM+CRF模型
- 特征表示:主要利用双向的LSTM对文本中的字和词进行特征表示。
- 模型训练:将每个字的表示获得的K维向量(K为标签的数量)进行拼接得到输入 P P P, P P P 是一个 n × k n\times k n×k维的矩阵,统一作为特征输入到CRF模型中。
- 模型分类:利用训练好的模型,对待分类文本进行分类。
- 具体:利用双向LSTM对输入文本进行特征表示,然后将其输入到CRF中,对句子中每个词进行分类,整体打分(分类标签为实体类型和BIO三种标签的组合),最终输出分类结果,完成实体识别
二、细粒度实体识别
细粒度实体识别,包含更多知识,有助于相应任务性能的提升。
1、任务概述
(1)典型的细粒度实体类别分类
- 自动内容抽取会议(ACE):实体分为7大类(人名、地名、机构名、武器、交通工具、行政区、设备设施)和45小类。
- Sekine和Nobata:4个级别共计200个小类别
- Lee:大约150个小类别的实体分类体系
- Freebase:上千种实体类别,且动态增加的
- …
(2)细粒度实体类别的特点
- 类别更多:eg:植物、药品、会议…且会出现新的类别
- 类别具有层次结构:eg:机构可细分为学校、公司、金融机构、医院等,医院有可分为三甲医院、专科医院、社区医院等
(3)细粒度实体类别的难点
- 类别制定:覆盖类别多且有层次结构的类别体系???
- 语料标注:实体类别增多,与标注语料的难度和成本呈指数级增长。
- 人工标注:质量高、成本高
- 利用回标方法自动标注:速度快,有噪音
- 实体识别方法:类别多?无语料或较少语料下的细粒度实体识别?
(4)细粒度实体类别的制定
- 人工制定
- 利用人工构建的词典资源作为类别的来源。来源eg:WordNet、Freebase等
- YAGO实体类别体系
2、细粒度实体识别方法
- 前面介绍的实体识别方法均可使用
- 当没有语料标注时,利用聚类自动获得实体集合,但无法自动获得实体的类别标签;
- 当提供相应类别的实体的种子时,实体扩展方法获取对应类别的更多实体;
- 采用回标法获取语料时,需要对噪音数据特别处理
- 无监督的细粒度实体抽取系统
- 组成:规则抽取、实体名的抽取 和 实体名的验证
三、实体扩展
1、任务概述
定义:对于某实体类别 C C C,给定该类别的 M M M 个实体(称为“种子实体”),一个实体扩展系统需要找出属于类别 C C C 的其他实体。( 实体类别 C C C 是未知的)eg:输入是“辽宁、江苏、山东”这三个实体,输出则应该是其他表示中国省份的实体。
目标:从海量、冗余、异构、不规范的网络数据中大规模地抽取开放类别的命名实体,进而构建开放类别命名实体列表。
特点:
- 目标实体类别开放:目标类别未知,需要在仅仅知道该类别的若干实体(种子实体)的条件下进行实体抽取
- 目标数据领域开放:数据不限于指定领域的文本,而是不限定领域的、海量、冗余、不规范、有噪音的多源异构数据
- 以“抽取”代替“识别”:以抽取的方式构建目标类型实体列表
评价指标:准确率(precision)、召回率(recall)、MAP(Mean Average Precision)、P@N值、R-PREC值等
应用:
- KG中实体扩展
- 提高问答系统性能,尤其是处理list类型问题
- 提高垂直领域信息抽取的效果
- 提升搜索引擎的用户体验
- KG中同类实体的检索与推荐
- 提高查询分析的准确率
- 辅助文档分类
- 辅助用户行为分析与广告精准投放
2、实体扩展方法
组成:
- 种子处理模块:选取 或 生成 高质量的种子。 非常重要,关系到整个系统的性能。该模块的输入为若干种子组成的初始种子集合,输出是高质量种子组成的集合。
- 实体抽取模块:从语料中抽取属于目标类别的实体。
- 包括:候选抽取(抽取候选实体)、打分排序(计算候选实体的置信度并对其排序)子模块
- 输入为种子集合,输出为排序后的候选实体列表
- 结果过滤模块:对抽取出的实体集合进行过滤。 提高候选实体列表的准确率
第一个和第三个模块为通用模块,不同实体扩展方法主要区别于实体抽取模块。
目前实体扩展方法,大致可分为基于模板的实体抽取 和 基于统计的实体抽取取两大类。
(1)基于模板的实体抽取
基本思路:若目标实体与种子实体同属于某个语义类,则它们的上下文应该符合特定的模板。 以模板为特征,计算候选实体的置信度。
此处的模板:
- 预先定义好的指示上下位关系的语义模板,eg:such as、and other
- 通过分析种子实体所处的上下文得到模板,eg:窗口上下文模板。
- 思路:若目标实体与种子实体同属于某个语义类别,则它们的上下文分布(名词或名词短语)应该是相似的
预定义模板的方法中,主要的假设是
- 好的模板——在语料中出现次数频繁
- 好的模板——总是指示目标类别的实体
- 好的模板——可在不需要其他知识的前提下在文本中被是被出来
典型方法:基于Booststrapping策略,反复迭代,得到更多模板
(2)基于统计的实体抽取
基本思路:使用相对粗糙的方式获取候选(eg:语料中所有名词或名词短语都作为候选),分析整个语料的统计信息来得到候选的分布信息,最后计算候选实体与种子实体的分布相似度作为置信度并对候选实体进行排序。
a、基于上下文相似度的方法
基本思路:找出语料中全部名词或名词短语,然后分别计算它们与种子实体的相似度并找出相似实体。
关键影响因素:语料规模、语料质量
b、融合模板与上下文相似度的方法
适用于:处理不同来源数据时效果更为明显。
基本思想:对不同类型的数据使用不同的抽取方法,再把不同方法得到的结果融合起来。
代表方法:融合文本和网络列表的方法、融合网络列表与查询(query)的方法、多源数据融合的方法。这类
优点:这类方法引入了模板抽取的结果作为已知知识,并通过 Bootstrapping策略不断更新已知知识, 抽取结果的准确率有很大提高。
缺点:计算量大,所选特征仍局限于上下文特征。
(3)种子处理
作用:衡量种子实体的质量,选取高质量种子
1. 典型度:代表目标语义类别的能力
2. 歧义度:是否具有不同语义
3. 覆盖度:种子集合含有的语义信息能在多大程度上覆盖目标语义类别的语义信息
当初始种子数量很少,则需要根据初始种子生成高质量新种子的方法
(4)结果过滤
产生错误候选实体原因:种子的歧义性,实体在某种语义上可能比较相似,但不会在其他语义上相似。
方法
- 计算所有候选实体与错误候选实体的相似度,并排除相似度超过某个人工指定阈值的候选实体
- 找出错误候选实体的特征向量(由该候选的上下文组成),并将其对应的特征从种子集特征向量中剔除。