【通用机器学习】数据集十大合集，不能错过！

最新推荐文章于 2024-07-28 20:53:06 发布

计算机科研之友（Friend）

最新推荐文章于 2024-07-28 20:53:06 发布

阅读量882

点赞数 14

文章标签：机器学习人工智能计算机网络搜索引擎计算机视觉图像处理

本文链接：https://blog.csdn.net/Kyzy_1919/article/details/140715240

版权

本文将为您介绍10个经典、热门的计算机视觉方向数据集，希望对您在选择适合的数据集时有所帮助。

点击蓝字

关注我们

OpenScene

发布方：

上海人工智能实验室
发布时间：

2023-08-04
简介：

自动驾驶中最大的3D占用率预测基准

对于基础模型和DriveAGI来说，大规模的数据和基准测试是必不可少的。我们正在推出世界上最大的自动驾驶3D入住率预测基准。
下载地址：

https://github.com/OpenDriveLab/OpenScene

MSRA Hand

发布方：

Chinese University of Hong Kong·Microsoft Research
发布时间：

2014-01-01
简介：

MSRA Hands 是用于手部跟踪的数据集。使用英特尔的创意交互式手势相机总共捕获了 6 个受试者的右手。每个受试者被要求在 400 帧的视频序列中做出各种快速手势。为了考虑不同的手尺寸，为每个主题指定了全局手模型比例：主题 1~6 分别为 1.1、1.0、0.9、0.95、1.1、1.0。相机内在参数为：主点=图像中心（160,120），焦距=241.42。深度图像为 320x240，每个 .bin 文件按行扫描顺序存储深度像素值，即 320240 个浮点数。单位是毫米。 bin 文件是二进制文件，需要使用 std::ios::binary 标志打开。 joint.txt 文件存储 400 帧 x 每帧 21 个手关节。每条线有 3 * 21 = 63 个浮点数，用于 (x, y, z) 坐标中的 21 个 3D 点。 21 个手关节是：手腕、index_mcp、index_pip、index_dip、index_tip、middle_mcp、middle_pip、middle_dip、middle_tip、ring_mcp、ring_pip、ring_dip、ring_tip、little_mcp、little_pip、little_dip、little_tip、thumb_mcp、thumb_pip、thumb_dip、thumb_tip。对应的 *.jpg 文件仅用于深度和地面实况关节的可视化。
下载地址：

https://jimmysuen.github.io/
论文地址：

https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Qian_Realtime_and_Robust_2014_CVPR_paper.pdf

Stanford Cars

发布方：

斯坦福大学·马克斯普朗克信息学研究所
发布时间：

2013
简介：

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像，其中每个类被大致分成50-50。类别通常在品牌，型号，年份，例如2012特斯拉Model S或2012 BMW M3 coupe的级别。
下载地址：

https://ai.stanford.edu/~jkrause/cars/car_dataset.html
论文地址：

http://vision.stanford.edu/pdf/3drr13.pdf

LoveDA (Remote Sensing Land-Cover Dataset for Domain Adaptive Semantic Segmentation)

发布方：

武汉大学·测绘与遥感信息工程国家重点实验室
发布时间：

2021
简介：

来自南京、常州和武汉的 5987 张高空间分辨率 (0.3 m) 遥感图像聚焦城乡之间的不同地理环境推进语义分割和领域适应任务三个相当大的挑战：多尺度对象复杂背景样本不一致的类别分布
下载地址：

https://github.com/Junjue-Wang/LoveDA
论文地址：https://arxiv.org/pdf/2110.08733v5.pdf

KITTI Road

发布方：

本田欧洲研究所·马克斯普朗克智能系统研究所
发布时间：

2013
简介：

KITTI Road 是道路和车道估计基准，由 289 个训练图像和 290 个测试图像组成。它包含三种不同类别的道路场景： * uu - 城市未标记 (98/100) * um - 城市标记 (95/96) * umm - 城市多标记车道 (96/94) * 城市 - 地面以上三者的组合事实已通过图像的手动注释生成，可用于两种不同的道路地形类型：道路 - 道路区域，即所有车道的组成，车道 - 自我车道，即车辆当前所在的车道继续行驶（仅适用于“嗯”类别）。地面实况仅用于训练图像。
下载地址：

http://www.cvlibs.net/datasets/kitti/eval_road.php
论文地址：

http://www.cvlibs.net/publications/Fritsch2013ITSC.pdf

OCNLI

发布方：

艾伦人工智能研究所·CLUE·印第安纳大学
发布时间：2020-01-01
简介：

OCNLI代表原始中文自然语言推论。它是中文自然语言推理的语料库，紧密按照MNLI的程序收集，但具有增强的策略，旨在实现更具挑战性的推理对。我们想强调的是，我们在创建数据集时没有使用人机翻译，因此我们的中文文本是原创的，没有翻译。
下载地址：

https://github.com/cluebenchmark/OCNLI
论文地址：

https://arxiv.org/pdf/2010.05444.pdf

UrbanSound8K

发布方：

纽约大学城市科学与进步中心·纽约大学音乐与音频研究实验室
发布时间：

2014
简介：

“这个数据集包含来自 10 个类别的 8732 个城市声音的标记声音摘录 (<=4s)：air_conditioner、car_horn、children_playing、dog_bark、drilling、enginge_idling、gun_shot、jackhammer、siren 和 street_music。这些类别来自城市声音分类法。有关数据集的详细说明及其编译方式，请参阅我们的论文。所有摘录均来自上传到 www.freesound.org 的现场录音。文件预先分类为十个文件夹（文件夹名为 fold1 “
下载地址：https://urbansounddataset.weebly.com/urbansound8k.html
论文地址：

http://www.justinsalamon.com/uploads/4/3/9/4/4394963/salamon_urbansound_acmmm14.pdf

WikiArt

发布方：

罗格斯大学
发布时间：

2015
简介：

为了收集我们的美术作品集，我们使用了公开的 “维基艺术绘画” 数据集4 ；据我们所知，这是最大的数字化艺术品在线公开收藏。这个收藏有从十五个世纪到当代艺术家的1,119艺术家的81,449精工画的图像。这些绘画来自27种不同的风格 (抽象，拜占庭，巴洛克等) 和 45种不同的流派 (室内、风景等)先前的作品 [26,9] 使用了不同的资源，并制作了较小的收藏，在风格，流派方面的可变性有限和艺术家。[4] 的工作在数据收集程序方面最接近我们的工作，但是他们收集的图像数量是我们的一半。
下载地址：

https://github.com/cs-chan/ArtGAN/blob/master/WikiArt%20Dataset/README.md
论文地址：https://arxiv.org/pdf/1505.00855v1.pdf

SYNTHIA-AL

发布方：

巴塞罗那自治大学·计算机视觉中心
发布时间：2019
简介：

用于主动学习目的的数据集。这是以 25 FPS 生成的视频流。该数据集中考虑的类是空的、天空、建筑物、道路、人行道、栅栏、植被、杆、汽车、交通标志、行人、自行车、车道标记和交通灯。提供的基本事实包括实例分割、2D 边界框、3D 边界框和深度信息！
下载地址：

http://synthia-dataset.net/downloads/
论文地址：

https://arxiv.org/pdf/1908.11757v1.pdf

Electricity (Individual household electric power consumption Data Set)

发布方：

加州大学
发布时间：

2012-08-30
简介：

在近 4 年的时间里，以一分钟的采样率测量一个家庭的电力消耗。提供不同的电量和一些分计量值。数据集信息：该档案包含 2075259 次测量，这些测量值在 2006 年 12 月至 2010 年 11 月（47 个月）期间在位于 Sceaux（法国巴黎 7 公里）的一所房屋中收集。注：1.(global_active_power*1000/60 - sub_metering_1 - sub_metering_2 - sub_metering_3) 表示未在子计量 1、2 和 3 中测量的电气设备在家庭中每分钟消耗的有功电能（以瓦特小时为单位）。 2.The数据集包含测量中的一些缺失值（近 1.25% 的行）。数据集中存在所有日历时间戳，但对于某些时间戳，测量值缺失：缺失值由两个连续的分号属性分隔符之间的缺失值表示。例如，数据集显示 2007 年 4 月 28 日的缺失值。属性信息： 1.date：日期格式为 dd/mm/yyyy 2.time：时间格式为 hh:mm:ss 3.global_active_power：家庭全球分钟平均有功功率（千瓦） 4.global_reactive_power：家庭全球分钟平均无功功率（千瓦） 5.voltage：分钟平均电压（伏特） 6.global_intensity：家庭全球分钟平均电流强度（安培） 7. sub_metering_1：电能分计量1号（有功电能瓦时）。它对应于厨房，主要包含洗碗机、烤箱和微波炉（热板不是电动的，而是燃气驱动的）。 8.sub_metering_2：电能分计量2号（有功电能瓦时）。它对应于洗衣房，里面有洗衣机、烘干机、冰箱和灯。 9.sub_metering_3：3号电能分计量（瓦时有功电能）。它对应于电热水器和空调。我们建议使用以下伪 APA 参考格式来引用此存储库：Dua, D. 和 Graff, C. (2019)。 UCI 机器学习存储库 [http://archive.ics.uci.edu/ml]。加利福尼亚州欧文：加利福尼亚大学信息与计算机科学学院。这里还有一个 BiBTeX 引文：@misc{Dua:2019 , author = "Dua, Dheeru and Graff, Casey", year = "2017", title = "{UCI} Machine Learning Repository", url = "http:// /archive.ics.uci.edu/ml”，机构 = “加州大学欧文分校信息与计算机科学学院”}
下载地址：https://archive.ics.uci.edu/ml/datasets/individual+household+electric+power+consumption
论文地址：

http://jestec.taylors.edu.my/Vol%2011%20issue%2011%20November%202016/11_11_11.pdf

温馨小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

计算机科研之友（Friend）

关注

14
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
【通用机器学习】数据集十大合集，不能错过！

它对应于厨房，主要包含洗碗机、烤箱和微波炉（热板不是电动的，而是燃气驱动的）。21 个手关节是：手腕、index_mcp、index_pip、index_dip、index_tip、middle_mcp、middle_pip、middle_dip、middle_tip、ring_mcp、ring_pip、ring_dip、ring_tip、little_mcp、little_pip、little_dip、little_tip、thumb_mcp、thumb_pip、thumb_dip、thumb_tip。
复制链接

扫一扫