数据集
文章平均质量分 50
数据集
u013250861
这个作者很懒,什么都没留下…
展开
-
OpenBG Benchmark:大规模开放数字商业知识图谱评测基准
OpenBG Benchmark是一个大规模开放数字商业知识图谱评测基准,包含多个子数据集和子任务。数据集以开放的数字商业知识图谱OpenBG为基础构建,OpenBG是开放的数字商业知识图谱,是一个使用统一Schema组织、涵盖产品和消费需求的百万级多模态数据集。OpenBG由浙江大学、阿里巴巴藏经阁团队联合提供,开放的目标是利用开放的商业知识发现社会经济的价值,促进数字商务数字经济等领域的交叉学科研究,服务数字经济健康发展的国家战略需求。原创 2022-09-13 17:50:40 · 390 阅读 · 0 评论 -
数据集-知识图谱:OGB(Open Graph Benchmark)【英文】【用于图学习的基准测试数据集】
OGB是一个真实的、大规模的、多样的并用于图学习的基准测试数据集。斯坦福大学的Jure Leskovec教授在NeurlPS 2019大会的演讲中介绍了OGB并宣布开源,可以在其项目官网进行访问。论文链接:https://arxiv.org/abs/2005.00687OGB官网:https://ogb.stanford.edu/GitHub地址:https://github.com/snap-stanford/ogbJure Leskovec教授演讲:https://slideslive.co原创 2022-05-26 09:51:36 · 1407 阅读 · 0 评论 -
数据集-知识图谱:FreeBase(通用知识图谱)【英文】
Freebase 作为典型的知识图谱,其采用结构化的数据形式(Wikipedia并不是)。该项目由 MetaWeb 公司在2005年启动,Google于2010年收购了该公司,并将 Freebase 作为Google知识图谱的核心部分。2016年8月,Google停止了对 Freebase 的维护,并将其整体迁移合并到 WikiData 项目中[1]。基于知识图谱的问答系统(Knowledge-based Question Answering,KBQA),这个领域的论文大多是基于 Freebase 的。原创 2022-05-06 22:48:26 · 8139 阅读 · 0 评论 -
NLP-数据集:文本复述(text paraphrase)、语义相似度、语义匹配
复述资源是指在模型进行复述生成时为其提供的训练语料、规则词典等原始资源,复述资源获取通过现有的书籍资料等,从中查找出语义相同的语句,构建出复述语料的过程,目前已有部分学者针对复述资源获取做了很多工作,下面列举常见的集中复述资源获取的方式。然而在高质量复述平行语料较为稀缺的情况下,复述资源的领域和规模又限制了复述资源的获取,通过人工来构造高质量的中文复述资源成本过高,导致中文文本复述相较于其他语言的文本复述发展滞后。文本复述最早给出的定义是:概念上的近似等价,由于等价的概念较为模糊没有一个确切、统一的标准。原创 2023-07-29 23:31:45 · 535 阅读 · 0 评论 -
时间序列数据集-Human Activity Recognition database (HAR)
Human Activity Recognition database 由 30 名志愿者在携带带有嵌入式惯性传感器的腰部智能手机进行日常生活活动 (ADL) 的记录中构建而成。有两个版本的数据,第一个版本发布于2012年,更新后的版本发布于2015年。总共选取了30 名志愿者,年龄范围在19-48 岁年龄段。每个人在腰部佩戴智能手机进行六项活动(WALKING、WALKING_UPSTAIRS、WALKING_DOWNSTAIRS、SITTING、STANDING、LAYING)。原创 2023-06-30 13:10:17 · 1323 阅读 · 0 评论 -
电气领域相关数据集(目标检测,分类图像数据及负荷预测),输电线路图像数据
风机id、日期时间、风速(m/s)、大气温度(° c)、轴温(° c)、叶片角度(° c)、齿轮箱温度(° c)、发动机温度(° c)、电机转矩(N-m)、发电机温度(° c)、大气压力(Pascal)、面积温度(° c)、风车车体温度(° c)、风向(° c)、电阻(ohm)、转子转矩(N-m)、状态、云层高度、叶片长度(m)、风车高度(m)RRP_negative:浮动,平均负RRP,由相应的当日需求加权,以AUD $ / MWh。demand_pos_RRP:浮动,以Rh为正的每日总需求量(MWh)原创 2022-11-27 15:44:56 · 5864 阅读 · 14 评论 -
数据集-语音识别:LibriSpeech ASR corpus
公开数据集中最常用的英文语料,其中包含了1000小时的16kHz有声书录音,并且经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。数据大小:60 GB。原创 2022-10-31 17:05:12 · 959 阅读 · 0 评论 -
数据集-实体&关系抽取:SCIERC语料格式解读
【代码】数据集-实体&关系抽取:SCIERC语料格式解读。原创 2022-10-22 21:11:55 · 690 阅读 · 0 评论 -
KBQA-问答数据集-2016:WebQSP
该数据集包含四个文件:WebQSP.[test|train].[partial|_].json. 其中,train/test 划分跟WebQuestions中的一样。训练集和测试集被另外分割成主数据集(WebQSP.train.json, WebQSP.test.json)和额外的“部分”问题(即有效的解析无法表示,或问题本身是坏的或需要一个描述性的回答)。该数据集可用在Question Answering,Semantic Parsing和Entity Linking任务。......原创 2022-08-30 09:55:26 · 702 阅读 · 0 评论 -
KBQA(知识图谱问答)-常用数据集:UMLS:医疗数据集; Kinship:亲属关系数据集
WN18RR:WordNet子集。描述英语单词之间关联特征的数据集,同时保留WordNet数据集中的对称、非对称和组合关系,去除了倒装关系。FB15k-237:Freebase子集。Kinship:亲属关系数据集。UMLS:医疗数据集。原创 2022-08-25 15:15:53 · 1226 阅读 · 0 评论 -
KBQA(知识图谱问答)-常用数据集:MetaQA(Movie Text Audio QA)【共有三个数据集:1-hop,2-hop,3-hop】
数据集:https://github.com/yuyuz/MetaQA(也可以直接点击下边链接下载数据集:https://drive.google.com/drive/folders/0B-36Uca2AvwhTWVFSUZqRXVtbUE?源自论文:Variational reasoning for question answering with knowledge graph。各种模型在MetaQA上的性能比较:MetaQA Dataset | Papers With Code。原创 2022-08-19 19:45:00 · 546 阅读 · 0 评论 -
时间序列-数据集:电力变压器数据集 (ETDataset)
用于支撑”长时间序列”相关的研究。所有的数据都经过了预处理,并且以.csv的格式存储。这些数据的时间跨度为2016年7月到2018年7月。原创 2022-07-22 23:29:46 · 4303 阅读 · 3 评论 -
音频分类-数据集:Urbansound8K【应用较为广泛的用于自动城市环境声分类研究的数据集,含10个分类:空调声、汽车鸣笛声、儿童玩耍声、狗叫声、钻孔声、引擎空转声、枪声、手提钻、警笛声、街道音乐】
Urbansound8K是目前应用较为广泛的用于自动城市环境声分类研究的公共数据集,包含10个分类空调声、汽车鸣笛声、儿童玩耍声、狗叫声、钻孔声、引擎空转声、枪声、手提钻、警笛声和街道音乐声。数据集下载地址https//zenodo.org/record/1203745/files/UrbanSound8K.tar.gz。...原创 2022-07-15 22:58:40 · 2120 阅读 · 0 评论 -
音频分类-数据集:ESC-50【每个音频长度为5 秒,5个大类,50 个小类(每个小类 40 个样本),共 2000个样本】
该数据集由5秒长的记录组成,这些记录被组织成50个语义类(每个类40个示例),松散地排列成5个主要类别,ESC-50数据集是2000个环境录音的标记集合,适用于环境声音分类的基准测试方法。原创 2022-07-14 23:36:47 · 4025 阅读 · 0 评论 -
KBQA-问答数据集:QALD
QALD是一系列关于在关联数据上回答问题的评估活动, 其使用的知识库是DBpedia。QALD是一个开放的挑战,它针对的是在用户(用自然语言表达他或她的信息需求)和结构化(特别是RDF)数据之间进行交互(mediate)的所有系统。我们的目标是得到一个最先进的系统的优点和缺点,以及了解如何开发方法处理数据量巨大的RDF数据,这些数据分布在不同的数据集,并且是异构的,有噪音的,有时甚至不一致。任务:参与者的一般任务如下:给定一个或几个RDF数据集和自然语言问题,返回正确的答案或检索这些答案的SPARQL查询原创 2022-07-14 18:35:04 · 593 阅读 · 0 评论 -
音频分类-数据集:AudioSet【Google发行的声音版ImageNet】
GitHub:https://github.com/audioset/ontology谷歌发布的大规模音频数据集,AudioSet 包括 632 个音频事件类的扩展类目和从YouTube视频绘制的 2084320 个人类标记的10秒声音剪辑的集合。音频本体 (ontology) 被确定为事件类别的一张层级图,覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。AndioSet能为音频事件检测提供一个常见的、实际的评估任务,也是声音事件的综合词汇理解的一个开端。该数据集收集了所有与我们合作的人类原创 2022-07-13 20:49:41 · 7112 阅读 · 3 评论 -
数据集-故障诊断:西储大学轴承的各项数据以及数据说明
平台组成待测轴承故障设置信号采集轴承数据格式数据文件为Matlab格式。每个文件包含风扇和驱动端振动数据,以及电机转速。对于所有文件,在变量名显示下列项目:参考资料:美国西储大学轴承数据解读美国西储大学轴承数据中心基于西储大学数据之轴承故障诊断研究西储大学轴承数据中心全部数据...原创 2022-07-02 21:25:37 · 3123 阅读 · 0 评论 -
语音标注自动音段对齐工具SPPAS使用笔记
SPPAS工具是由Brigitte Bigi(Laboratoire Parole et Langage - Aix-en-Provence - France)开发的。在网上提供免费下载及使用。这是一款目前比较流行的自动标注,音段对齐的工具,目前应用于法语、英语、汉语等都有不错的效果。虽然音段自动对齐的准确率并不完善,但是对于一般的语音研究者来说,能够自动产生出带有音段信息,并且边界相对整齐的Praat标注文件TextGrid已经是大大提升了工作效率。所以推荐给进行语音研究,而且数据量规模很大的朋友。有关于原创 2022-06-29 00:21:34 · 496 阅读 · 0 评论 -
语音标注工具:Praat
Praat脚本具有强大的功能,对语音文件标注完成后,下面的任务就是把成百上千的语音文件中的参数提取出来,最基本的就是时长,和基频,其它还有元音可能要提取共振峰,如果对这些文件全部手工提取,工作量可想而知,而使用Praat脚本即可以批量提取,便于统一整理。这里先介绍如何提取时长和基频的脚本,随后以如何绘制汉字声调图为例,说明一个小的应用。参考资料:Praat语音标注说明praat_使用教程详细说明.zipPraat脚本提取时长及基频并示例如何绘制声调图...原创 2022-06-29 00:02:10 · 1452 阅读 · 0 评论 -
NLP标注工具:Label Studio实现多用户协作打标
近期在做NER的工作,由于缺乏标注数据,所以,你懂的😭😭Label Studio不仅可以用来标注文本NER任务,还可以用来标注文本分类、图像分类等等其他AI任务。官网——https://labelstud.io/其他标注任务自己去探索吧,我这里只讲一下NER任务。参考资料:命名实体识别(NER)标注神器——Label Studio 简单使用...原创 2022-06-28 23:19:13 · 1852 阅读 · 2 评论 -
DiaKG:用于构建医学知识图谱的糖尿病标注数据集【命名实体识别(NER)和关系抽取(RE)】
知识图谱在结构化信息和概念性知识的建模方面已经被证明是有效的,特别是在医学领域。然而,缺乏高质量的标注语料库仍然是推进这一任务的研究和应用的关键问题。为了加快医学领域特定知识图谱的研究,我们介绍了DiaKG,一个高质量的糖尿病知识图谱的中文数据集,它包含了22,050个实体和6,890个关系。我们实施了最近的典型的命名实体识别和关系抽取方法作为基准来全面评估所提出的数据集。实证结果表明,DiaKG对大多数现有的方法来说是具有挑战性的,并进行了进一步的分析,以讨论未来的改进研究方向。我们希望这个数据集的发布能原创 2022-05-27 14:02:39 · 2753 阅读 · 2 评论 -
NLP标注工具:brat【可用于标注:实体、关系、事件、属性】【只能用于Linux下】【开源、免费】
brat是linux下的一款应用于webserver端的文本标注工具,可用于标注如下类型信息:实体:命名实体,可用于NER;关系:实体间关系,可用于关系抽取;事件:实体参与的事件;属性:事件或实体的属性,常用于知识图谱。一、brat的安装1、基本环境配置【系统环境】brat只能用于linux下,若为windows系统,请安装于linux虚拟机上。【web环境】官方建议使用使用Apache2进行web配置,用如下命令安装apache2:参考资料:【文本标注】文本标注工具bra原创 2022-05-26 18:24:46 · 2894 阅读 · 0 评论 -
数据集:UCI【UC Irvine Machine Learning Repository】
UCI Machine Learning RepositoryUCI数据库是加州大学欧文分校(University of CaliforniaIrvine)提出的用于机器学习的数据库,这个数据库共有559个数据集,其数目还在不断增加,UCI数据集是一个常用的标准测试数据集。UCI数据可以使用matlab的dlmread(或textread或者利用matlab的导入数据)读取,不过,需要先将不是数字的类别用数字,比如1/2/3等替换,否则读入不了数值,当字符了。每个数据文件(.data)包含以“属性-值原创 2022-05-05 18:38:34 · 4830 阅读 · 0 评论 -
数据集-语音识别
The 1st Chinese Audio-Textual Spoken Language Understanding Challenge原创 2022-04-28 11:07:17 · 1973 阅读 · 0 评论 -
数据集-中文:千言中文开源数据集
原创 2022-04-28 10:24:43 · 825 阅读 · 0 评论 -
数据集-中文-对话
千言数据集:开放域对话原创 2022-04-28 10:22:11 · 160 阅读 · 0 评论 -
数据集-中文-阅读理解
InsaneLife/ChineseNLPCorpusgolden-horse原创 2022-04-28 10:05:47 · 340 阅读 · 0 评论 -
问答对数据集
问题-答案对:1)cMedQA 2.0gitee库医疗问答数据集:论文:IARNN-Based Semantic-Containing Double-Level Embedding Bi-LSTM for Question-and-Answer Matching网址:https://github.com/Vitas-Xiong/Chinese-Medical-Question-Answering-System简介:从http://www. 120ask.com上爬下来的60000个问题和1原创 2022-04-27 17:24:16 · 690 阅读 · 0 评论 -
NLP-信息抽取-命名实体识别(NER):数据集【CoNLL2003、OneNotes、MSRA、Weibo、CLUENER2020】
命名实体识别(NameEntity Recognition)是信息提取的一个子任务,其目的是将文本中的命名实体定位并分类为预定义的类别,如人员、组织、位置等。它是信息抽取、问答系统和句法分析等应用领域的重要基础技术,是结构化信息抽取的重要步骤。参考资料:【NER】中文细粒度命名实体识别数据集来了GitHub:CLUENER2020CLUENER2020原文:https://arxiv.org/abs/2001.04351 ...原创 2022-03-28 22:13:44 · 2677 阅读 · 0 评论 -
时间序列数据集:UCR Time Series Classification Archive【共128个数据集】
UCR是时间序列数据集,并且每个数据集样本都带有样本类别标签,目前是时间序列挖掘领域重要的开源数据集资源。UCR Time Series Classification Archive数据集在2018版的官网页面上可以直接下载整个128个数据集,下图中的红框1可以阅读PDF文档,红框2是下载按钮。官网首页如下:IDTypeNameTrainTestClassLengthED (w=0)DTW (learned_w)DTW (w=100)Default rateData d原创 2022-03-25 22:44:32 · 19488 阅读 · 14 评论 -
NLP标注工具:doccano【开源、免费】
doccano是一个开源文本标注工具。 它提供了文本分类,序列标注和序列到序列的标注功能。 因此,您可以为情绪分析,命名实体识别,文本摘要等创建标记数据。 只需创建项目,上传数据并开始标注。总结下来就3步,上传数据,标注,下载带有标签的数据。一、标注任务1、命名实体识别第一个演示是序列标记任务之一,命名实体识别。 您只需选择文本跨度并对其进行标注即可。 由于doccano支持快捷键,因此您可以快速标注文本跨度。二、doccano特点合作标注:可以进行多人合作,分配标注任务。语言独立性:你可以原创 2022-03-25 12:28:35 · 1220 阅读 · 0 评论 -
NLP标注工具:【免费:doccano、标注精灵、brat、YEDDA、DeepDive、rasa-nlu-trainer】【收费:Prodigy】
NLP标注工具:【免费:doccano、标注精灵、BRAT、YEDDA、DeepDive、rasa-nlu-trainer】【收费:Prodigy】参考资料:NLP标注神器:可同时对文本与实体进行标注超强大NLP标注工具——Prodigy(收费)原创 2022-03-25 09:58:38 · 7612 阅读 · 0 评论 -
hugging face 官方文档——datasets、optimizer
一、加载dataset数据集存储在各种位置,比如 Hub 、本地计算机的磁盘上、Github 存储库中以及内存中的数据结构(如 Python 词典和 Pandas DataFrames)中。无论您的数据集存储在何处,🤗 Datasets 都为您提供了一种加载和使用它进行训练的方法。本节将向您展示如何从以下位置加载数据集:没有数据集加载脚本的 Hub本地文件内存数据离线拆分的特定切片解决常见错误,以及如何加载指标的特定配置。1、Hugging Face Hub上传数据集到Hub数据集存原创 2022-03-20 00:00:12 · 1277 阅读 · 0 评论 -
NLP数据集:GLUE【CoLA(单句子分类)、SST-2(情感二分类)、MRPC、STS-B、QQP、MNLI、QNLI、RTE、WNLI】【知名模型都会在此基准上进行测试】
GLUE的论文为:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language UnderstandingGLUE的官网为:gluebenchmark.com/本文的目的在于针对GLUE的九个任务分别做一个相对详细的说明,给出一些样例,有一个相对整体确切的感受,同时提供一个可以方便下载GLUE数据集的链接,供读者使用。一、任务介绍GLUE共有九个任务,分别是CoLA、SST-2、MRPC、STS-B、QQP、MNLI原创 2022-03-19 10:47:07 · 4944 阅读 · 0 评论