关系抽取公开数据集下载

https://zhuanlan.zhihu.com/p/581554247
该网址给出了很多关系抽取的公开数据集,

1、ACE实体关系数据集

ACE2005数据集包括英语,阿拉伯语和中文三部分数据,分成广播新闻和新闻专线两部分。 该数据集包含ART、Gen-affiliation在内的6种关系类型,Employment、Founder、Ownership在内的额18种子关系类型。

ACE04语料库共包含451个文档和5 702个关系实例。ACE2005中文数据集包括633个文档、307991个字符。

地址: https://catalog.ldc.upenn.edu/byproject

2、SemEval实体关系数据集

SemEval数据集是2010年国际语义评测大会中Task8任务所使用的数据集,共包括Cause-Effect(因果关系)、Instrument-Agency(操作、使用关系)、Product-Producer(产品-生产者关系)、 Content-Container(空间包含关系)、Entity-Origin(起源关系)、Entity-Destination(导向关系)、 Component-Whole(组件-整体关系)、Member-Collection(成员-集合关系)、Message-Topic(主题关系)等10类关系。

该数据集包括8000个训练样本,2717个测试样本。

地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_semeval.sh

3、FewRel实体关系数据集

FewRel是清华大学于2018年发布的精标注关系抽取数据集,是当前规模最大的中文实体关系数据集。

该数据集包括100个关系类别、70,000个关系实例。每句的平均长度为24.99,一共出现 124,577 个不同的单词/符号。

地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_fewrel.sh

4、Wiki80实体关系数据集

Wiki80是从数据集FewRel上提取的一个关系数据集,共包含location、part of、follows等80种关系,每种关系个数均为700,共56000个样本。

该数据集50400条训练集、5600条验证集。

地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_wiki80.sh

5、NYT10实体关系数据集

NYT10是在基于远程监督的关系抽取任务上最常用的数据集,由NYT corpus 在2010年基于Freebase远程监督得到的,共包含founders、place_of_birth在内的53种关系(包括一种NA),存在一定的噪声。

该数据集包括466876条训练集、55167条验证集以及172448条测试集。

地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_nyt10.sh

6、DuIE2.0实体关系数据集

DuIE2.0是业界规模最大的基于schema的中文关系抽取数据集,来自百度百科、百度贴吧和百度信息流文本。

该数据集包含超过43万三元组数据、21万中文句子及48个预定义的关系类型。

该数据集包括171135个训练集、21055个测试数据,外加80184条混淆数据。

地址: https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/DuIE

7、COAE2016实体关系数据集

CAOE2016关系数据集是CAOE2016 task3任务中用到的一个关系数据集,涉及到任关系类别包括出生日期、出生地、毕业院校、配偶、子女、高管、员工数、创始人、总部、其他共十类关系。

该数据集中包含988个训练数据和483个测试数据。 地址: https://ccir2016.ccnl.scut.edu.cn/caoe_test.php

8、人物实体关系数据集

人物关系抽取数据集是CCKS2019中的一个层级关系分类任务,包括三大类(亲属关系、社交关系、师生关系),四中类(配偶、血亲、姻亲、友谊)、35小类(现夫、前妻)种关系类型。 该数据集包括3841条验证集、287351条训练集以及77092条测试集句子。

地址: https://github.com/SUDA-HLT/IPRE

9、Chinese Literature Text文档级实体关系数据集

Chinese Literature Text是面向中文文学的一个实体关系数据集,标注了物体、人名、地名、时间名、容量名、组织和摘要共7类实体,位于、部分、家庭、概括、社会、拥有、使用、制造、邻接等9类实体关系。

该数据集共计726篇文章,29096句话,超过100000个字符。训练集695篇,验证集58篇、测试集84篇。

地址: https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset

10、DocRED文档级实体关系数据集

DocRED是基于维基百科的文档级关系抽取数据集,数据集中每个文档都被标注了命名实体提及、核心参考信息、句内和句间关系以及支持证据。关系类型涉及科学、艺术、时间、个人生活在内的96种Wikidata关系类型。

该数据集在5053个维基百科文档上进行标注,包含132375个实体和56354个关系事实。

地址: https://github.com/thunlp/DocRE

下载步骤,有些是在github上进行下载,需要在unbuton中,先切换到cd mnt/d/…(d盘文件夹)中执行

mkdir nyt10
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_rel2id.json
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_train.txt
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_test.txt

即可下载到当前文件中新建的nyt10文件中

如果是
https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset
则我们需要下载github的该项目,或者直接clone到本地中
(需要提前下载git)
然后
git clone https://github.com/lancopku/Chinese-Literature-NER-RE-Datase

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值