【通用机器学习】数据集十大合集,不能错过!

本文将为您介绍10个经典、热门的计算机视觉方向数据集,希望对您在选择适合的数据集时有所帮助。

点击蓝字

关注我们

1

OpenScene

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2023-08-04

  • 简介:

    自动驾驶中最大的3D占用率预测基准

    对于基础模型和DriveAGI来说,大规模的数据和基准测试是必不可少的。我们正在推出世界上最大的自动驾驶3D入住率预测基准。

  • 下载地址:

    https://github.com/OpenDriveLab/OpenScene

2

MSRA Hand

  • 发布方:

    Chinese University of Hong Kong·Microsoft Research

  • 发布时间:

    2014-01-01

  • 简介:

    MSRA Hands 是用于手部跟踪的数据集。使用英特尔的创意交互式手势相机总共捕获了 6 个受试者的右手。每个受试者被要求在 400 帧的视频序列中做出各种快速手势。为了考虑不同的手尺寸,为每个主题指定了全局手模型比例:主题 1~6 分别为 1.1、1.0、0.9、0.95、1.1、1.0。相机内在参数为:主点=图像中心(160,120),焦距=241.42。深度图像为 320x240,每个 .bin 文件按行扫描顺序存储深度像素值,即 320240 个浮点数。单位是毫米。 bin 文件是二进制文件,需要使用 std::ios::binary 标志打开。 joint.txt 文件存储 400 帧 x 每帧 21 个手关节。每条线有 3 * 21 = 63 个浮点数,用于 (x, y, z) 坐标中的 21 个 3D 点。 21 个手关节是:手腕、index_mcp、index_pip、index_dip、index_tip、middle_mcp、middle_pip、middle_dip、middle_tip、ring_mcp、ring_pip、ring_dip、ring_tip、little_mcp、little_pip、little_dip、little_tip、thumb_mcp、thumb_pip、thumb_dip、thumb_tip。对应的 *.jpg 文件仅用于深度和地面实况关节的可视化。

  • 下载地址:

    https://jimmysuen.github.io/

  •  论文地址:

    https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Qian_Realtime_and_Robust_2014_CVPR_paper.pdf

3

Stanford Cars

  • 发布方:

    斯坦福大学·马克斯普朗克信息学研究所

  • 发布时间:

    2013

  • 简介:

    Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

  • 下载地址:

    https://ai.stanford.edu/~jkrause/cars/car_dataset.html

  • 论文地址:

    http://vision.stanford.edu/pdf/3drr13.pdf

4

LoveDA (Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation)

  • 发布方:

    武汉大学·测绘与遥感信息工程国家重点实验室

  • 发布时间:

    2021

  • 简介:

    来自南京、常州和武汉的 5987 张高空间分辨率 (0.3 m) 遥感图像 聚焦城乡之间的不同地理环境 推进语义分割和领域适应任务 三个相当大的挑战: 多尺度对象 复杂背景样本 不一致的类别分布

  • 下载地址:

    https://github.com/Junjue-Wang/LoveDA

  • 论文地址:https://arxiv.org/pdf/2110.08733v5.pdf

5

KITTI Road

  • 发布方:

    本田欧洲研究所·马克斯普朗克智能系统研究所

  • 发布时间:

    2013

  • 简介:

    KITTI Road 是道路和车道估计基准,由 289 个训练图像和 290 个测试图像组成。它包含三种不同类别的道路场景: * uu - 城市未标记 (98/100) * um - 城市标记 (95/96) * umm - 城市多标记车道 (96/94) * 城市 - 地面以上三者的组合事实已通过图像的手动注释生成,可用于两种不同的道路地形类型:道路 - 道路区域,即所有车道的组成,车道 - 自我车道,即车辆当前所在的车道继续行驶(仅适用于“嗯”类别)。地面实况仅用于训练图像。

  • 下载地址:

    http://www.cvlibs.net/datasets/kitti/eval_road.php

  • 论文地址:

    http://www.cvlibs.net/publications/Fritsch2013ITSC.pdf

6

OCNLI

  • 发布方:

    艾伦人工智能研究所·CLUE·印第安纳大学

  • 发布时间:2020-01-01

  • 简介:

    OCNLI代表原始中文自然语言推论。它是中文自然语言推理的语料库,紧密按照MNLI的程序收集,但具有增强的策略,旨在实现更具挑战性的推理对。我们想强调的是,我们在创建数据集时没有使用人机翻译,因此我们的中文文本是原创的,没有翻译。

  • 下载地址:

    https://github.com/cluebenchmark/OCNLI

  • 论文地址:

    https://arxiv.org/pdf/2010.05444.pdf

7

UrbanSound8K

  • 发布方:

    纽约大学城市科学与进步中心·纽约大学音乐与音频研究实验室

  • 发布时间:

    2014

  • 简介:

    “这个数据集包含来自 10 个类别的 8732 个城市声音的标记声音摘录 (<=4s):air_conditioner、car_horn、children_playing、dog_bark、drilling、enginge_idling、gun_shot、jackhammer、siren 和 street_music。这些类别来自城市声音分类法。有关数据集的详细说明及其编译方式,请参阅我们的论文。所有摘录均来自上传到 www.freesound.org 的现场录音。文件预先分类为十个文件夹(文件夹名为 fold1 “

  • 下载地址:https://urbansounddataset.weebly.com/urbansound8k.html

  •  论文地址:

    http://www.justinsalamon.com/uploads/4/3/9/4/4394963/salamon_urbansound_acmmm14.pdf

8

WikiArt

  • 发布方:

    罗格斯大学

  • 发布时间:

    2015

  • 简介:

    为了收集我们的美术作品集,我们使用了公开的 “维基艺术绘画” 数据集4 ;据我们所知,这是最大的数字化艺术品在线公开收藏。这个收藏有从十五个世纪到当代艺术家的1,119艺术家的81,449精工画的图像。 这些绘画来自27种不同的风格 (抽象,拜占庭,巴洛克等) 和 45种不同的流派 (室内、风景等)先前的作品 [26,9] 使用了不同的资源,并制作了较小的收藏,在风格,流派方面的可变性有限 和艺术家。[4] 的工作在数据收集程序方面最接近我们的工作,但是他们收集的图像数量是我们的一半。

  • 下载地址:

    https://github.com/cs-chan/ArtGAN/blob/master/WikiArt%20Dataset/README.md

  • 论文地址:https://arxiv.org/pdf/1505.00855v1.pdf

9

SYNTHIA-AL

  • 发布方:

    巴塞罗那自治大学·计算机视觉中心

  • 发布时间:2019

  • 简介:

    用于主动学习目的的数据集。这是以 25 FPS 生成的视频流。该数据集中考虑的类是空的、天空、建筑物、道路、人行道、栅栏、植被、杆、汽车、交通标志、行人、自行车、车道标记和交通灯。提供的基本事实包括实例分割、2D 边界框、3D 边界框和深度信息!

  • 下载地址:

    http://synthia-dataset.net/downloads/

  •  论文地址:

    https://arxiv.org/pdf/1908.11757v1.pdf

10

Electricity (Individual household electric power consumption Data Set)

  • 发布方:

    加州大学

  • 发布时间:

    2012-08-30

  • 简介:

    在近 4 年的时间里,以一分钟的采样率测量一个家庭的电力消耗。提供不同的电量和一些分计量值。数据集信息:该档案包含 2075259 次测量,这些测量值在 2006 年 12 月至 2010 年 11 月(47 个月)期间在位于 Sceaux(法国巴黎 7 公里)的一所房屋中收集。注:1.(global_active_power*1000/60 - sub_metering_1 - sub_metering_2 - sub_metering_3) 表示未在子计量 1、2 和 3 中测量的电气设备在家庭中每分钟消耗的有功电能(以瓦特小时为单位)。 2.The数据集包含测量中的一些缺失值(近 1.25% 的行)。数据集中存在所有日历时间戳,但对于某些时间戳,测量值缺失:缺失值由两个连续的分号属性分隔符之间的缺失值表示。例如,数据集显示 2007 年 4 月 28 日的缺失值。 属性信息: 1.date:日期格式为 dd/mm/yyyy 2.time:时间格式为 hh:mm:ss 3.global_active_power:家庭全球分钟平均有功功率(千瓦) 4.global_reactive_power:家庭全球分钟平均无功功率(千瓦) 5.voltage:分钟平均电压(伏特) 6.global_intensity:家庭全球分钟平均电流强度(安培) 7. sub_metering_1:电能分计量1号(有功电能瓦时)。它对应于厨房,主要包含洗碗机、烤箱和微波炉(热板不是电动的,而是燃气驱动的)。 8.sub_metering_2:电能分计量2号(有功电能瓦时)。它对应于洗衣房,里面有洗衣机、烘干机、冰箱和灯。 9.sub_metering_3:3号电能分计量(瓦时有功电能)。它对应于电热水器和空调。我们建议使用以下伪 APA 参考格式来引用此存储库:Dua, D. 和 Graff, C. (2019)。 UCI 机器学习存储库 [http://archive.ics.uci.edu/ml]。加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院。这里还有一个 BiBTeX 引文:@misc{Dua:2019 , author = "Dua, Dheeru and Graff, Casey", year = "2017", title = "{UCI} Machine Learning Repository", url = "http:// /archive.ics.uci.edu/ml”,机构 = “加州大学欧文分校信息与计算机科学学院”}

  • 下载地址:https://archive.ics.uci.edu/ml/datasets/individual+household+electric+power+consumption

  •  论文地址:

    http://jestec.taylors.edu.my/Vol%2011%20issue%2011%20November%202016/11_11_11.pdf

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

  • 14
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值