抽取字符_知识抽取-关系抽取之Bootstrapping:快速构建大规模知识图谱利器

本文探讨了Bootstrapping在知识抽取中的应用,尤其是关系抽取。介绍了DIPRE和Snowball两种方法,讨论了它们的工作原理、优缺点,并通过实验展示了其相对于Baseline方法的优势。Bootstrapping在工业界中仍然是构建大规模知识图谱的实用方法。
摘要由CSDN通过智能技术生成

6fada4d2f0c4615343f8e0743dc5b727.png

CHANGLOG

  • 7/15/2020,细致梳理知识抽取体系和信息抽取体系
  • 7/2/2020,新增 pattern 置信度计算公式 RlogF 解析
  • 5/10/2020,初次发表。

前言

知识抽取是知识图谱构建的前置步骤,其中,关系抽取是建立图谱中实体关联的必经之路。而今,学术界往往倾向于结合最新的深度学习技术探索关系抽取效果的边界。然而,在工业界中,简单快速高效的Bootstrapping方法往往也能达到令人满意的效果。本文将和各位读者一起,溯本还原,一探“老而弥坚”的Bootstrapping方法的究竟。

目录

  1. 导言
  2. 相关工作
  3. Dipre
  4. Snowball
  5. 实验
  6. 总结

1. 导言

1.1 知识抽取

知识抽取(Knowledge Extraction)的目标是从结构化(关系数据库,XML)数据和非结构化(文本,文档,图像)数据中抽取知识。 尽管知识抽取在方法上类似于信息抽取(NLP)和ETL(数据仓库),但它的抽取结果不仅限于结构化信息的生成或关系数据库 schema 的转换。 知识抽取还需要复用已有的知识表示(本体等)或基于源数据生成 schema [1]

知识抽取任务总览[2]

632f8340ef60378546eeff69c584a983.png
图1. 知识抽取总览

不难发现,结构化数据和半结构化数据的抽取瓶颈主要在数据获取上。与之相反,如今的互联网上有海量的纯文本数据,从中获取知识的难点在于信息抽取技术。

这里简单介绍下信息抽取(Information Extraction),该技术的目标是从非结构化数据中抽取出结构化的信息[3],其最重要/最受关注三个的子任务是[2]

f47581a85af2c74f5a0516f8eb4dce89.png
图2. 信息抽取主要任务

本文将聚焦于作用在纯文本数据的信息抽取技术。

1.2 关系抽取

作为信息抽取的主要任务之一,关系抽取需要从文本中抽取两个或多个实体之间的语义关系,主要方法有下面几类[2]

2f6efac1280dd9c317709f2f08112faf.png
图3. 关系抽取主要方法

本文将主要探究半监督学习关系抽取方法中的Bootstrapping方法。

2. 相关工作

半监督学习主要是利用少量的标注信息进行学习,这方面的工作主要有基于 Bootstrapping 的方法以及远程监督方法(distance supervision)基于 Bootstrapping 的方法主要是利用少量实例作为初始种子(seed tuples)集合,然后进行学习得到新的pattern,进而基于新老pattern抽取新的tuples并扩充种子集合,通过不断迭代从非结构化数据中寻找和发现新的潜在关系三元组。远程监督方法主要是对知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力。

2.1 研究进展

  1. Brin[4]等人通过少量的实例学习种子模板,从网络上大量非结构化文本中抽取新的实例,同时学习新的抽取模板,其主要贡献是构建了DIPRE系统;
  2. Agichtein[5]在Brin的基础上对新抽取的实例进行可信度的评分和完善关系描述的模式,设计实现了Snowball抽取系统;
  3. 此后的一些系统都沿着 Bootstrapping 的方法,但会加入更合理的对pattern描述、更加合理的限制条件和评分策略,或者基于先前系统抽取结果上
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值