关系抽取概述及研究进展Relation Extraction Progress

关系抽取任务概述

下面主要从关系抽取的定义、关系抽取的主流评测数据集、关系抽取的主流方法、关系抽取相关的经典论文、相关代码资源几个方面进行介绍。

转载请注明出处:https://blog.csdn.net/CSDN_wujian/article/details/100136621

关系抽取的定义

关系抽取是从一段文本中提取出发生在两个实体或多个实体之间的语义关系的任务。关系抽取Relation Extraction,也称关系分类Relation Classification(判断实体Entity之间属于哪种关系,多分类问题)

根据处理数据源的不同,关系抽取可以分为以下三种:

  1. 面向结构化文本的关系抽取:包括表格文档、XML文档、数据库数据等
  2. 面向非结构化文本的关系抽取:纯文本
  3. 面向半结构化文本的关系抽取:介于结构化和非结构化之间

根据抽取文本的范围不同,关系抽取可以分为以下两种:

  1. 句子级关系抽取:从一个句子中判别两个实体间是何种语义关系
  2. 语料(篇章)级关系抽取:不限定两个目标实体所出现的上下文

根据所抽取领域的划分,关系抽取又可以分为以下两种:

  1. 限定域关系抽取:在一个或者多个限定的领域内对实体间的语义关系进行抽取,限定关系的类别,可看成是一个文本分类任务
  2. 开放域关系抽取:不限定关系的类别

关系抽取的公开的主流评测数据集

ACE 2005

包含599 docs. 定义了7 种关系
(收费的)官网:https://www.ldc.upenn.edu/language-resources/data/obtaining,官网注册会员,花钱购买

SemiEval 2010 Task8 Dataset:

  • 19 types
  • train data: 8000, test data: 2717
  • 关系:Cause-Effect、Instrument-Agency、Product-Producer、Content-Container、Entity-Origin、Entity-Destination、Component - Whole、Member-Collection、Message-Topic、Other
  • 数据集介绍:https://blog.csdn.net/qq_29883591/article/details/88567561

NYT(New York Times Corpus)

NYT是远监督关系抽取(distantly supervised relationship extraction)所用的标准预料数据,发布于 Riedel et al, 2010.该篇论文中。
包含的文本来源于纽约时报New York Times所标注的语料,其中的命名实体是通过 Stanford NER 工具并结合 Freebase知识库进行标注的。命名实体对之间的关系是链接和参考外部的Freebase知识库中的关系,结合远监督方法所得到的。

Example:
Elevation Partners, the $1.9 billion private equity group that was founded by Roger McNamee
(founded_by, Elevation_Partners, Roger_McNamee)

  • 53 种关系
  • train data: 522611 sentences; 需要注意的是,这里面有近80%的句子的标签为NA
  • test data: 172448 sentences;

TACRED数据集

TACRED 是一个大规模的关系抽取数据集,包含106,264 样本,和41种关系类型,文本内容主要是新闻文本和 TAC Knowledge Base Population (TAC KBP) 竞赛的文本语料. 例如(e.g., per:schools_attended and org:members) or “no_relation ” 这些样本来自于TAC KBP 竞赛中的人为标注和众包。
Example:
Billy Mays, the bearded, boisterious pitchman who, as the undisputed king of TV yell and sell, became an inlikely pop culture icon, died at his home in Tampa, Fla, on Sunday.
(per:city_of_death, Billy Mays, Tampa)

fewshot数据集(清华)

The Few-Shot Relation Classification Dataset (FewRel) .该数据集包含70000条句子,100种关系,每种关系包含700条句子。通过 Wikipedia 语料和众包完成。The few-shot learning(小样本学习) task follows the C-way K-shot meta learning setting. 它是目前最大的监

  • 5
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值