关系抽取公开数据集下载

https://zhuanlan.zhihu.com/p/581554247
该网址给出了很多关系抽取的公开数据集,

1、ACE实体关系数据集

ACE2005数据集包括英语,阿拉伯语和中文三部分数据,分成广播新闻和新闻专线两部分。 该数据集包含ART、Gen-affiliation在内的6种关系类型,Employment、Founder、Ownership在内的额18种子关系类型。

ACE04语料库共包含451个文档和5 702个关系实例。ACE2005中文数据集包括633个文档、307991个字符。

地址: https://catalog.ldc.upenn.edu/byproject

2、SemEval实体关系数据集

SemEval数据集是2010年国际语义评测大会中Task8任务所使用的数据集,共包括Cause-Effect(因果关系)、Instrument-Agency(操作、使用关系)、Product-Producer(产品-生产者关系)、 Content-Container(空间包含关系)、Entity-Origin(起源关系)、Entity-Destination(导向关系)、 Component-Whole(组件-整体关系)、Member-Collection(成员-集合关系)、Message-Topic(主题关系)等10类关系。

该数据集包括8000个训练样本,2717个测试样本。

地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_semeval.sh

3、FewRel实体关系数据集

FewRel是清华大学于2018年发布的精标注关系抽取数据集,是当前规模最大的中文实体关系数据集。

该数据集包括100个关系类别、70,000个关系实例。每句的平均长度为24.99,一共出现 124,577 个不同的单词/符号。

地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_fewrel.sh

4、Wiki80实体关系数据集

Wiki80是从数据集FewRel上提取的一个关系数据集,共包含location、part of、follows等80种关系,每种关系个数均为700,共56000个样本。

该数据集50400条训练集、5600条验证集。

地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_wiki80.sh

5、NYT10实体关系数据集

NYT10是在基于远程监督的关系抽取任务上最常用的数据集,由NYT corpus 在2010年基于Freebase远程监督得到的,共包含founders、place_of_birth在内的53种关系(包括一种NA),存在一定的噪声。

该数据集包括466876条训练集、55167条验证集以及172448条测试集。

地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_nyt10.sh

6、DuIE2.0实体关系数据集

DuIE2.0是业界规模最大的基于schema的中文关系抽取数据集,来自百度百科、百度贴吧和百度信息流文本。

该数据集包含超过43万三元组数据、21万中文句子及48个预定义的关系类型。

该数据集包括171135个训练集、21055个测试数据,外加80184条混淆数据。

地址: https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/DuIE

7、COAE2016实体关系数据集

CAOE2016关系数据集是CAOE2016 task3任务中用到的一个关系数据集,涉及到任关系类别包括出生日期、出生地、毕业院校、配偶、子女、高管、员工数、创始人、总部、其他共十类关系。

该数据集中包含988个训练数据和483个测试数据。 地址: https://ccir2016.ccnl.scut.edu.cn/caoe_test.php

8、人物实体关系数据集

人物关系抽取数据集是CCKS2019中的一个层级关系分类任务,包括三大类(亲属关系、社交关系、师生关系),四中类(配偶、血亲、姻亲、友谊)、35小类(现夫、前妻)种关系类型。 该数据集包括3841条验证集、287351条训练集以及77092条测试集句子。

地址: https://github.com/SUDA-HLT/IPRE

9、Chinese Literature Text文档级实体关系数据集

Chinese Literature Text是面向中文文学的一个实体关系数据集,标注了物体、人名、地名、时间名、容量名、组织和摘要共7类实体,位于、部分、家庭、概括、社会、拥有、使用、制造、邻接等9类实体关系。

该数据集共计726篇文章,29096句话,超过100000个字符。训练集695篇,验证集58篇、测试集84篇。

地址: https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset

10、DocRED文档级实体关系数据集

DocRED是基于维基百科的文档级关系抽取数据集,数据集中每个文档都被标注了命名实体提及、核心参考信息、句内和句间关系以及支持证据。关系类型涉及科学、艺术、时间、个人生活在内的96种Wikidata关系类型。

该数据集在5053个维基百科文档上进行标注,包含132375个实体和56354个关系事实。

地址: https://github.com/thunlp/DocRE

下载步骤,有些是在github上进行下载,需要在unbuton中,先切换到cd mnt/d/…(d盘文件夹)中执行

mkdir nyt10
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_rel2id.json
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_train.txt
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_test.txt

即可下载到当前文件中新建的nyt10文件中

如果是
https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset
则我们需要下载github的该项目,或者直接clone到本地中
(需要提前下载git)
然后
git clone https://github.com/lancopku/Chinese-Literature-NER-RE-Datase

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
实体抽取是自然语言处理领域的一项重要任务,通过识别文本中的实体,包括人名、地名、组织机构名等,从而帮助计算机理解文本的含义和结构。实体抽取在信息检索、知识图谱构建、情感分析等领域都有广泛的应用。 中文数据集csdn是一个常用的用于实体抽取的数据集之一。csdn是中国最大的专业软件开发者社区,包含了丰富的中文技术文章和用户评论。这些文章和评论中包含了大量的实体信息,如人名、产品名、技术名等。 利用csdn数据集进行实体抽取可以采用基于规则的方法、基于机器学习的方法或者混合方法。首先,可以使用规则来识别一些固定模式的实体,例如按照人名的常用格式进行匹配的规则。其次,可以采用基于机器学习的方法,将文本进行标注并进行训练,构建实体抽取模型。这些模型可以使用传统的机器学习算法,如随机森林、支持向量机等,也可以使用深度学习算法,如循环神经网络、卷积神经网络等。最后,还可以通过混合方法,结合规则和机器学习模型的优势,提高实体抽取的准确率和召回率。 csdn数据集的使用需要对数据进行预处理和清洗,例如去除HTML标签、特殊符号等,以保证数据的质量。此外,还可以采用数据增强的方法,通过替换、删除、插入等方式扩充训练数据,从而提升模型的泛化能力和鲁棒性。 总之,csdn作为一个中文数据集,可以用于实体抽取任务的训练和评估。通过采用规则、机器学习、混合方法等不同的技术手段,并结合数据预处理和增强的策略,可以有效地从csdn数据集中提取出有意义的实体信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值