关系抽取公开数据集下载

Time-leaper

已于 2023-05-08 13:05:15 修改

阅读量1.6k

点赞数 2

文章标签：机器学习深度学习 python bash 自然语言处理

于 2023-05-08 11:35:15 首次发布

原文链接：https://zhuanlan.zhihu.com/p/581554247

版权

https://zhuanlan.zhihu.com/p/581554247
该网址给出了很多关系抽取的公开数据集，

1、ACE实体关系数据集

ACE2005数据集包括英语，阿拉伯语和中文三部分数据，分成广播新闻和新闻专线两部分。该数据集包含ART、Gen-affiliation在内的6种关系类型，Employment、Founder、Ownership在内的额18种子关系类型。

ACE04语料库共包含451个文档和5 702个关系实例。ACE2005中文数据集包括633个文档、307991个字符。

地址： https://catalog.ldc.upenn.edu/byproject

2、SemEval实体关系数据集

SemEval数据集是2010年国际语义评测大会中Task8任务所使用的数据集，共包括Cause-Effect(因果关系)、Instrument-Agency(操作、使用关系)、Product-Producer(产品-生产者关系)、 Content-Container(空间包含关系)、Entity-Origin(起源关系)、Entity-Destination(导向关系)、 Component-Whole(组件-整体关系)、Member-Collection(成员-集合关系)、Message-Topic(主题关系)等10类关系。

该数据集包括8000个训练样本，2717个测试样本。

地址： https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_semeval.sh

3、FewRel实体关系数据集

FewRel是清华大学于2018年发布的精标注关系抽取数据集，是当前规模最大的中文实体关系数据集。

该数据集包括100个关系类别、70,000个关系实例。每句的平均长度为24.99，一共出现 124,577 个不同的单词/符号。

地址： https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_fewrel.sh

4、Wiki80实体关系数据集

Wiki80是从数据集FewRel上提取的一个关系数据集，共包含location、part of、follows等80种关系，每种关系个数均为700，共56000个样本。

该数据集50400条训练集、5600条验证集。

地址： https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_wiki80.sh

5、NYT10实体关系数据集

NYT10是在基于远程监督的关系抽取任务上最常用的数据集，由NYT corpus 在2010年基于Freebase远程监督得到的，共包含founders、place_of_birth在内的53种关系（包括一种NA），存在一定的噪声。

该数据集包括466876条训练集、55167条验证集以及172448条测试集。

地址： https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_nyt10.sh

6、DuIE2.0实体关系数据集

DuIE2.0是业界规模最大的基于schema的中文关系抽取数据集，来自百度百科、百度贴吧和百度信息流文本。

该数据集包含超过43万三元组数据、21万中文句子及48个预定义的关系类型。

该数据集包括171135个训练集、21055个测试数据，外加80184条混淆数据。

地址： https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/DuIE

7、COAE2016实体关系数据集

CAOE2016关系数据集是CAOE2016 task3任务中用到的一个关系数据集，涉及到任关系类别包括出生日期、出生地、毕业院校、配偶、子女、高管、员工数、创始人、总部、其他共十类关系。

该数据集中包含988个训练数据和483个测试数据。地址： https://ccir2016.ccnl.scut.edu.cn/caoe_test.php

8、人物实体关系数据集

人物关系抽取数据集是CCKS2019中的一个层级关系分类任务，包括三大类(亲属关系、社交关系、师生关系)，四中类(配偶、血亲、姻亲、友谊）、35小类(现夫、前妻)种关系类型。该数据集包括3841条验证集、287351条训练集以及77092条测试集句子。

地址： https://github.com/SUDA-HLT/IPRE

9、Chinese Literature Text文档级实体关系数据集

Chinese Literature Text是面向中文文学的一个实体关系数据集，标注了物体、人名、地名、时间名、容量名、组织和摘要共7类实体，位于、部分、家庭、概括、社会、拥有、使用、制造、邻接等9类实体关系。

该数据集共计726篇文章，29096句话，超过100000个字符。训练集695篇，验证集58篇、测试集84篇。

地址： https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset

10、DocRED文档级实体关系数据集

DocRED是基于维基百科的文档级关系抽取数据集，数据集中每个文档都被标注了命名实体提及、核心参考信息、句内和句间关系以及支持证据。关系类型涉及科学、艺术、时间、个人生活在内的96种Wikidata关系类型。

该数据集在5053个维基百科文档上进行标注，包含132375个实体和56354个关系事实。

地址： https://github.com/thunlp/DocRE

下载步骤，有些是在github上进行下载，需要在unbuton中，先切换到cd mnt/d/…(d盘文件夹)中执行

mkdir nyt10
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_rel2id.json
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_train.txt
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_test.txt

即可下载到当前文件中新建的nyt10文件中

如果是
https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset
则我们需要下载github的该项目，或者直接clone到本地中
（需要提前下载git）
然后
git clone https://github.com/lancopku/Chinese-Literature-NER-RE-Datase

Time-leaper

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
关系抽取公开数据集下载

人物关系抽取数据集是CCKS2019中的一个层级关系分类任务，包括三大类(亲属关系、社交关系、师生关系)，四中类(配偶、血亲、姻亲、友谊）、35小类(现夫、前妻)种关系类型。Chinese Literature Text是面向中文文学的一个实体关系数据集，标注了物体、人名、地名、时间名、容量名、组织和摘要共7类实体，位于、部分、家庭、概括、社会、拥有、使用、制造、邻接等9类实体关系。关系类型涉及科学、艺术、时间、个人生活在内的96种Wikidata关系类型。训练集695篇，验证集58篇、测试集84篇。
复制链接

扫一扫