CHANGLOG
- 7/15/2020,细致梳理知识抽取体系和信息抽取体系
- 7/2/2020,新增 pattern 置信度计算公式 RlogF 解析
- 5/10/2020,初次发表。
前言
知识抽取是知识图谱构建的前置步骤,其中,关系抽取是建立图谱中实体关联的必经之路。而今,学术界往往倾向于结合最新的深度学习技术探索关系抽取效果的边界。然而,在工业界中,简单快速高效的Bootstrapping方法往往也能达到令人满意的效果。本文将和各位读者一起,溯本还原,一探“老而弥坚”的Bootstrapping方法的究竟。
目录
- 导言
- 相关工作
- Dipre
- Snowball
- 实验
- 总结
1. 导言
1.1 知识抽取
知识抽取(Knowledge Extraction)的目标是从结构化(关系数据库,XML)数据和非结构化(文本,文档,图像)数据中抽取知识。 尽管知识抽取在方法上类似于信息抽取(NLP)和ETL(数据仓库),但它的抽取结果不仅限于结构化信息的生成或关系数据库 schema 的转换。 知识抽取还需要复用已有的知识表示(本体等)或基于源数据生成 schema [1]。
知识抽取任务总览[2]:
不难发现,结构化数据和半结构化数据的抽取瓶颈主要在数据获取上。与之相反,如今的互联网上有海量的纯文本数据,从中获取知识的难点在于信息抽取技术。
这里简单介绍下信息抽取(Information Extraction),该技术的目标是从非结构化数据中抽取出结构化的信息[3],其最重要/最受关注三个的子任务是[2]:
本文将聚焦于作用在纯文本数据的信息抽取技术。
1.2 关系抽取
作为信息抽取的主要任务之一,关系抽取需要从文本中抽取两个或多个实体之间的语义关系,主要方法有下面几类[2]:
本文将主要探究半监督学习关系抽取方法中的Bootstrapping方法。
2. 相关工作
半监督学习主要是利用少量的标注信息进行学习,这方面的工作主要有基于 Bootstrapping 的方法以及远程监督方法(distance supervision)。基于 Bootstrapping 的方法主要是利用少量实例作为初始种子(seed tuples)集合,然后进行学习得到新的pattern,进而基于新老pattern抽取新的tuples并扩充种子集合,通过不断迭代从非结构化数据中寻找和发现新的潜在关系三元组。远程监督方法主要是对知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。
2.1 研究进展
- Brin[4]等人通过少量的实例学习种子模板,从网络上大量非结构化文本中抽取新的实例,同时学习新的抽取模板,其主要贡献是构建了DIPRE系统;
- Agichtein[5]在Brin的基础上对新抽取的实例进行可信度的评分和完善关系描述的模式,设计实现了Snowball抽取系统;
- 此后的一些系统都沿着 Bootstrapping 的方法,但会加入更合理的对pattern描述、更加合理的限制条件和评分策略,或者基于先前系统抽取结果上