动机
自然语言处理的课上老师介绍了关于信息抽取的相关内容,结合老师课件提到的相关文献,写一篇整体的总结将本类文献进行汇总,以便后续根据研究需要引用和深入阅读文献。
1. 信息抽取概述
1.1 信息抽取定义
一般意义上,信息抽取的定义为:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术[1]。
1.2 信息抽取的任务
- 实体识别与抽取
- 实体消岐
- 关系抽取
- 事件抽取
2. 实体识别与抽取
实体的识别和抽取根据应用的不同可以分为命名实体识别和开放域实体识别
2.1 实体识别
命名实体识别的主要任务是识别出待处理文本中七类命名实体,分别为人名、机构名、地名、时间、日期、货币和百分比。
在这七类当中,时间、日期、货币、百分比相对而言其构成具有很明显的规律,识别起来相对容易,但是剩下的三类由于用字灵活,所以识别难度很大。命名实体的内部构成和外部语言环境具有一些特征,无论何种方法,都在试图充分发现和利用实体所在的上下文特征和实体的内部特征。
考虑到每一类命名实体都具有不同的特征,不同类别的实体适合用不同的识别模型[2]:
- 人名:用基于字的模型描述其内部构成
- 地名和机构名:用基于词的模型描述
同时利用MEMM、HMM、CRF等序列标注工具计算特征权重。
2.2 开放域实体抽取
相对于实体识别而言,该领域目前更具有研究前景和价值。开放域实体抽取的特点在于不限定实体类别,不限定目标文本。
基本任务
给定某一类别的实体实例,从网页中抽取同一类别其他实体实例
例如给定<中国,美国,俄罗斯>(称为“种子”),找出其他国家<德国,英国,法国……>
基本思路在于种子词与目标词在网页中具有相同或者类似的上下文(包括网页结构和上下文)。因此需要首先利用种子词提取模板,随后利用模板提取更多同类实体。处理该问题的主流框架为:
2.3 开放域实体抽取的主要方法
基于Query Log的抽取方法[3]
通过分析种子实例在查询日志中的上下文学得模板,再利用模板找到同类别的实例.基本方法为构造候选与种子上下文向量,计算相似度。基于Web Page的抽取方法[4]
该文献的动机源于处理列表型文件即在同一个网页中,种子和目标实体具有相同的网页结构。整个系统主要分为三个模块。
爬取模块(Fetcher):把种子送到搜索引擎,把返回的前100个网页抓取下来作为语料
抽取模块(Extractor):针对单个网页学习模板,再使用模板抽取候选实例
排序模块(Ranker):利用种子、网页、模板、候选构造一个图,综合考虑网页和模板的质量,使用Random Walk算法为候选打分并排序融合多个数据源的抽取方法[5]
采用网页、查询日志、维基百科多种数据源,针对不同数据源,选取不同特征分别进行实例扩展,对结果进行融合,针对不同数据源选取不同的模板和特征,使用不同特征计算候选的置信度。
3 实体消岐
3.1 实体消岐定义
命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体,确定一个实体指称项所指向的真实世界实体,这就是命名实体消歧。
针对方法的不同可以分为基于聚类的实体消岐和基于实体链接的实体消岐。
3.2 基于聚类的实体消岐
基本思路为同一指称项具有近似的上下文,利用聚类算法进行消歧。其核心问题在于选取何种特征对于指称项进行表示,根据特征的不同,共有如下几种方法
基于词袋模型[6]
利用待消歧实体周边的词来构造向量,利用向量空间模型来计算两个实体指称项的相似度,进行聚类。基于语义特征[7]
词袋模型没有考虑词的语义信息,本文利用SVD分解挖掘词的语义信息,利用词袋和浅层语义特征,共同来表示指称项,利用余弦相似度来计算两个指称项的相似度。基于社会化网络[8]
不同的人具有不同的社会关系,利用实体的社会化关联信息所表现出来的网页链接特征,对网页进行聚类&#