图像视觉数据库

最新推荐文章于 2023-12-24 13:00:43 发布

alove110

最新推荐文章于 2023-12-24 13:00:43 发布

阅读量1.9k

点赞数

分类专栏：深度学习文章标签：计算机视觉机器学习图像处理数据库

本文链接：https://blog.csdn.net/suwenglong110/article/details/118962790

版权

深度学习专栏收录该内容

7 篇文章

订阅专栏

图像处理，机器视觉，机器学习需要用到的数据集，汇总供大家参考和使用！

这是人们发现对计算机视觉研究和算法评估有用的图像和视频数据库的整理列表。

一篇重要文章我的测试数据有多好？Introducing Safety Analysis for Computer Vision （由 Zendel、Murschitz、Humenberger 和 Herzner 撰写）介绍了一种方法，可确保您的数据集具有足够的多样性，从而使数据集上的算法结果能够代表人们在实际环境中可以预期的结果。特别是，该团队制作了一份可能导致算法出现问题的潜在危险（成像情况）清单。理想情况下，测试数据集应包含相关危害的示例。

按主题索引

行动数据库
农业
属性识别
自动驾驶
生物/医疗
相机校准
事件相机数据
面部和眼睛/虹膜数据库
指纹
一般图像
一般 RGBD、3D 点云和深度数据集
一般视频
手、手抓握、手部动作和手势数据库
图像、视频和形状数据库检索
对象数据库
人（静态和动态），人体姿势
人员检测和跟踪数据库（另见监视）
遥感
机器人
场景或地点、场景分割或分类
分割
同时定位和映射
监视和跟踪（另见人）
纹理
城市数据集
视觉和自然语言
其他收藏页面
杂项

其他有用的网站是：

Academic Torrents - 计算机视觉- 一组 30 多个以 BitTorrent 形式提供的大型数据集
机器学习数据集- 请参阅 CV 选项卡
YACVID - 一些计算机视觉数据集的标记索引

行动数据库

另请参阅： Action Recognition 的数据集摘要和排行榜（Gall、Kuehne、Bhattarai）。

19NonSense - 一种基于非阻塞性传感且完全注释的加速度计和陀螺仪数据，包含多种环境下的 19 项活动，捕获 13 名穿着电子鞋和智能手表的对象 (Thi-Lan Le) [26/12/2020]
200 亿-Something-Something - 密集标记的视频剪辑，显示人类对日常物品执行预定义的基本操作。108499 个视频片段，涉及 2 个物体之间的动作，174 个标签）（200 亿神经元有限公司）[28/12/19 之前]
2PD - 关于两人交互的 3D 骨骼运动数据集（Yijun Shen、Longzhi Yang、Edmond SL Ho 和 Hubert PH Shum） [1/2/21]
某事 v2 - 220847 个视频剪辑，涉及 2 个对象（30408 个对象，174 个标签）（Goyal、Kahou、Michalski、Materzynska、Westphal、Kim、Haenel、Fruend、Yianilos、Mueller-Freitag、Hoppe、Thurau、Bax、Memisevic） ) [31/5/2020]
3D在线动作数据集——有七种动作类别（微软和南洋理工大学） [28/12/19之前]
50 份沙拉- RGB-D 视频 + 加速度计数据的完整注释 4.5 小时数据集，捕获 25 人每人准备两份混合沙拉（邓迪大学，塞巴斯蒂安斯坦）[28/12/19 之前]
办公活动的第一人称视觉数据集 (FPVO) - FPVO 包含使用 12 个参与者收集的办公活动的第一人称视频片段。(G. Abebe, A. Catala, A. Cavallaro) [28/12/19 之前]
ActivityNet - 人类活动理解的大规模视频基准（200 个班级，每班 100 个视频，648 个视频小时）（Heilbron、Escorcia、Ghanem 和 Niebles）[28/12/19 之前]
视频中的动作检测- MERL 购物数据集由 106 个视频组成，每个视频都是一个大约 2 分钟长的序列（迈克尔·琼斯，蒂姆·马克斯）[28/12/19 之前]
演员和动作数据集- 3782 个视频，七类演员表演八种不同的动作（Xu、Hsieh、Xiong、Corso）[28/12/19 之前]
用于动作识别的各种标记视频数据集的分析整理(Kevin Murphy) [28/12/19 之前]
AQA-7 - 用于评估 7 种不同动作质量的数据集。它包含 1106 个动作样本和 AQA 分数。（帕尔马，莫里斯） [29/12/19]
ASLAN 动作相似性标签挑战数据库（Orit Kliper-Gross） [28/12/19 之前]
用于理解非结构化社交活动的属性学习- 包含 10 类非结构化社交事件以进行识别的视频数据库，还标注了 69 个属性。(Y. Fudan/QMUL, T. Hospedales Edinburgh/QMUL) [28/12/19前]
视听事件 (AVE) 数据集- AVE 数据集包含 4143 个 YouTube 视频，涵盖 28 个事件类别，并且 AVE 数据集中的视频在时间上标有视听事件边界。（田亚鹏、石静、李伯臣、段志耀、徐晨亮）【28/12/19前】
AVA：原子视觉动作的视频数据集- 430 个 15 分钟的电影剪辑中的 80 个原子视觉动作。（谷歌机器感知研究组）【28/12/19前】
BBDB - 棒球数据库 (BBDB) 是一个大型棒球视频数据集，包含 4200 小时的完整棒球比赛视频以及 400,000 个时间注释的活动片段。(Shim, Minho, Young Hwi, Kyungmin, Kim, Seon Joo) [28/12/19 之前]
行为与标记交互的人视频数据（Scott Blunsden、Bob Fisher、Aroosha Laghaee）[28/12/19 之前]
BU-action Datasets - 三个图像动作数据集（BU101、BU101-unfiltered、BU203-unfiltered）与视频数据集 UCF101 和 ActivityNet 的类具有 1:1 的对应关系。(S. Ma, SA Bargal, J. Zhang, L. Sigal, S. Sclaroff。) [28/12/19 之前]
伯克利 MHAD：综合多模态人类行为数据库(Ferda Ofli) [28/12/19 之前]
Berkeley Multimodal Human Action Database - 扩展应用领域的五种不同方式（加州大学伯克利分校和约翰霍普金斯大学） [28/12/19 之前]
早餐数据集- 这是一个包含 1712 个视频剪辑的数据集，显示 10 个厨房活动，这些活动被手工分割为 48 个原子动作类。(H. Kuehne, AB Arslan 和 T. Serre ) [28/12/19 之前]
布里斯托尔以自我为中心的对象交互数据集- 包含从第一人称（以自我为中心）的角度拍摄的视频，其中 3-5 名用户在六个不同的地点（Dima Damen、Teesid Leelaswassuk 和 Walterio Mayol-Cuevas，布里斯托尔大学）执行任务 [28 岁之前/ 12/19]
Brown 早餐行动数据集- 70 小时，400 万帧，包含 10 种不同的早餐准备活动（Kuehne、Arslan 和 Serre）[28/12/19 之前]
CAD-120 数据集- 专注于高级活动和对象交互（康奈尔大学）[28/12/19 之前]
CAD-60 数据集- CAD-60 和 CAD-120 数据集由人类执行活动的 RGB-D 视频序列组成（康奈尔大学）[28/12/19 之前]
CATER：组合动作和时间推理的诊断数据集- 合成视频理解基准，其任务设计需要时间推理才能解决（Girdhar，Ramanan）[29/12/19]
CVBASE06：带注释的体育视频(Janez Pers) [28/12/19 之前]
Charades 数据集- 来自 267 名志愿者的 10,000 个视频，每个视频都带有多个活动、标题、对象和时间定位的注释。(Sigurdsson、Varol、Wang、Laptev、Farhadi、Gupta) [28/12/19 之前]
可组合活动数据集- 26 个原子动作的不同组合形成了 16 个活动类，由 14 名受试者执行并提供了注释（智利天主教大学和北方大学）[28/12/19 之前]
人类跌倒的连续多模式多视图数据集- 该数据集由正常的日常活动和模拟跌倒组成，用于评估人体跌倒检测。(Thanh-Hai Tran) [28/12/19 之前]
CONVERSE - 人类对话交互数据集- 人类交互识别数据集，旨在探索通过使用基于姿势和外观的特征对自然执行的一对个体之间的对话场景进行分类（Edwards、Deng、Xie）[29/12/ 2020]
Cornell Activity Datasets CAD 60, CAD 120 (Cornell Robot Learning Lab) [28/12/19 之前]
DeepMind Kinetics 数据集- 650,000 个视频剪辑，700 个人类动作类，包括人与对象和人与人的交互。包括 AVA Kinetics、Kinetics 700、Kinetics 600、Kinetics 400（DeepMind Carreira、Noland、Hillier、Zisserman）[31/5/20]
DeepSport - 在职业比赛期间在不同篮球场捕获的成对连续图像，带有球位置的地面鲁斯注释。(UC Louvain ISPGroup)
DemCare 数据集- DemCare 数据集由一组来自不同传感器的不同数据集合组成，可用于从可穿戴/深度和静态 IP 摄像头识别人类活动、用于阿尔茨海默氏病检测的语音识别以及用于步态分析和异常检测的生理数据。(K. Avgerinakis, A.Karakostas, S.Vrochidis, I. Kompatsiaris) [28/12/19 之前]
Depth-included Human Action video dataset - 它包含23个不同的动作（中央研究院CITI）[28/12/19之前]
DMLSmartActions 数据集- 16 名受试者以自然的方式执行 12 种不同的动作。（英属哥伦比亚大学）【28/12/19前】
DogCentric 活动数据集- 从安装在 *dog* (Michael Ryoo) 顶部的相机拍摄的第一人称视频 [28/12/19 之前]
“DVSACT16 - 用于对象跟踪、动作识别和对象识别的 DVS 数据集” - 数据集包含来自 DVS 的跟踪数据集记录。(Hu, Liu, Pfeiffer, Delbruck, 神经信息学研究所，UZH 和 ETH Zurich) [27/12/2020]
Edinburgh ceilidh 头顶视频数据- 从头顶观看的 16 场真实舞蹈，其中 10 名舞者遵循结构化的舞蹈模式（2 种不同的舞蹈）。该数据集对于高度结构化的行为理解非常有用（Aizeboje，Fisher）[28/12/19 之前]
EPIC-KITCHENS-100 - 最大的带注释的以自我为中心的动作数据集，由 100 小时、20M 帧、90K 动作组成，捕获 45 种环境中的长期无脚本活动（Damen 等人）[29/12/2020]
EPIC-KITCHENS - 由 32 名参与者在他们的本地厨房环境、非脚本化日常活动、11.5M 帧、39.6K 帧级动作片段和 454.2K 对象边界框（Damen、Doughty、Fidler 等）中录制的以自我为中心的视频 [ 28/12/19 之前]
EPFL 可丽饼烹饪视频- 1920x1080 分辨率的 6 种结构化烹饪活动 (12) 视频（Lee、Ognibene、Chang、Kim 和 Demiris）[28/12/19 之前]
ETS 曲棍球比赛事件数据集- 该数据集包含使用固定摄像机拍摄的两场曲棍球比赛的镜头。（M.-A. Carbonneau、AJ Raymond、E. Granger 和 G. Gagnon）[28/12/19 之前]
跌倒检测数据集- 两个场景中的六个科目连续执行一系列动作（德克萨斯大学） [28/12/19 之前]
FCVID: Fudan-Columbia Video Dataset - 91,223 个网络视频根据 239 个类别（江、吴、王、薛、常）手动注释 [28/12/19 之前]
FineGym - 用于细粒度动作理解的分层视频数据集，在时间和语义上提供从粗到细的注释。它包含来自 300 多个明确定义的类别（邵、赵、戴、林）的 30k 多个细粒度动作实例 [27/12/2020]
G3D - 使用 Microsoft Kinect (Victoria Bloom) 捕获的 20 个游戏动作的同步视频、深度和骨架数据 [28/12/19 之前]
G3Di - 该数据集包含 12 个科目，分为 6 对（金斯顿大学）[28/12/19 之前]
Gaming 3D dataset - 游戏场景中的实时动作识别（金斯顿大学） [28/12/19 之前]
佐治亚理工学院以自我为中心的活动 - Gaze(+) - 人们注视位置和注视位置的视频 (Fathi, Li, Rehg) [28/12/19 之前]
HiEve：复杂事件中以人为中心的大规模视频分析- 100 万个姿势、56k+ 复杂事件动作标签和 2.6k+ 轨迹，涵盖广泛的以人为中心的分析任务（Lin、Qi、Sebe、Xu、Xion、沙阿) [28/12/2020]
HMDB：大型人体运动数据库（Serre Lab） [28/12/19 之前]
好莱坞 3D 数据集- 650 个 3D 视频剪辑，跨越 14 个动作类（Hadfield 和 Bowden）[28/12/19 之前]
Human Actions and Scenes Dataset (Marcin Marszalek, Ivan Laptev, Cordelia Schmid) [28/12/19 之前]
人类搜索人类注释者的搜索序列，其任务是发现 AVA 和 THUMOS14 数据集中的动作。(Alwassel, H., Caba Heilbron, F., Ghanem, B.) [28/12/19 之前]
好莱坞扩展- 937 个视频剪辑，总共 787720 帧，包含来自 69 部好莱坞电影的 16 个不同动作的序列。(Bojanowski, Lajugie, Bach, Laptev, Ponce, Schmid, and Sivic) [28/12/19 之前]
HumanEva：用于评估人体关节运动的同步视频和运动捕捉数据集（布朗大学） [28/12/19 之前]
I-LIDS 视频事件图像数据集（智能检测系统的图像库）（Paul Hosner）[28/12/19 之前]
I3DPost Multi-View Human Action Datasets (Hansung Kim) [28/12/19 之前]
IAS-lab 动作数据集- 包含足够多的动作和执行动作的人数（帕多瓦大学的 IAS 实验室）[28/12/19 之前]
ICS-FORTH MHAD101 Action Co-segmentation - 101 对共享一个或多个共同动作的长期动作序列进行共同分割，包含 3d 骨架和视频相关的基于帧的特征（克里特大学和 FORTH-ICS， K. Papoutsakis) [28/12/19 之前]
IIIT 极限运动- 来自 YouTube 的 160 个第一人称（以自我为中心）运动视频，带有 18 个动作类的帧级注释。（Suriya Singh、Chetan Arora 和 CV Jawahar。轨迹对齐）[28/12/19 之前]
宜家组装数据集- 组装任务的多模式和多视图视频数据集，其中包含 371 个家具组装样本及其真实注释。每个样本包括 3 个 RGB 视图、一个深度流、原子动作、人体姿势、对象段、对象跟踪和外部相机校准（Ben-Shabat、Yu、Saleh、Campbell、Rodriguez、Li、Gould）[27/12/2020 ]
INRIA Xmas Motion Acquisition Sequences (IXMAS) (INRIA) [28/12/19 之前]
InfAR Dataset - Infrared Action Recognition at different time Neurocomputing(Chenqiang Gao, Yinhe Du, Jiang Liu, Jing Lv, Luyu Yang, Deyu Meng, Alexander G. Hauptmann) [28/12/19 之前]
Jena 动作识别数据集- Aibo 狗动作（Korner 和 Denzler） [28/12/19 之前]
Jester - 148092 个人们在笔记本电脑/网络摄像头前做手势的视频剪辑（27 个标签）（Materzynska、Berger、Bax、Memisevic） [31/5/2020]
JHMDB：HMDB 数据集(J-HMDB) 的关节基于来自 HMDB51 的 928 个剪辑，包括 21 个动作类别（Jhuang、Gall、Zuffi、Schmid 和 Black）[28/12/19 之前]
JPL 第一人称交互数据集- 从第一人称视角拍摄的 7 种人类活动视频 (Michael S. Ryoo, JPL) [28/12/19 之前]
K3Da - Kinect 3D 活动数据集- K3Da（Kinect 3D 活动）是一个现实的临床相关人体动作数据集，包含骨架、深度数据和相关参与者信息（D. Leightley、MH Yap、J. Coulson、Y. Barnouin 和 JS McPhee）[ 28/12/19 之前]
Kinetics Human Action Video Dataset - 300,000 个视频剪辑，400 个人类动作类，10 秒剪辑，每个剪辑单个动作（Kay、Carreira 等）[28/12/19 之前]
KIT 机器人厨房活动数据集- 17 个人执行 12 项复杂厨房活动的 540 个剪辑。(L. Rybok, S. Friedberger, UD Hanebeck, R. Stiefelhagen) [28/12/19 之前]
KTH人体动作识别数据库（KTH CVAP实验室）【28/12/19前】
卡尔斯鲁厄运动、意图和活动数据集 (MINTA) - 7 种日常生活活动类型，包括完全运动的原始片段。(D. Gehrig, P. Krauthausen, L. Rybok, H. Kuehne, UD Hanebeck, T. Schultz, R. Stiefelhagen) [28/12/19 之前]
Leeds Activity Dataset--Breakfast (LAD--Breakfast) - 由 15 个带注释的视频组成，代表五个不同的人在吃早餐或其他简单的一餐；（John Folkesson 等人）[28/12/19 之前]
LEMMA - FPV+TPV 的多智能体多视图活动 (Jia, Chen, Huang, Zhu, Zhu) [26/12/2020]
LIRIS 人类活动数据集- 包含（灰色/RGB/深度）视频，显示人们进行各种活动（Christian Wolf 等人，法国国家科学研究中心）[28/12/19 之前]
MEXaction2 动作检测和定位数据集- 支持在相对较大的视频数据库中“发现”短动作实例的方法的开发和评估：77 小时，117 个视频（Michel Crucianu 和 Jenny Benois-Pineau）[28/12/ 之前/ 19]
MoVi：大型多功能人体运动和视频数据集- MoVi 是第一个包含来自大量受试者（Ghorbani、Mahdaviani、Thaler、Kording、Cook、Blohm、Troje）的同步姿势、身体网格和视频记录的人体运动数据集[27/12/2020]
MLB-YouTube - 棒球视频活动识别数据集 (AJ Piergiovanni, Michael Ryoo) [28/12/19 之前]
Moments in Time Dataset - Moments in Time Dataset 1M 3 秒视频，带有动作类型注释，是同类视频中动作识别和理解的最大数据集。（蒙福特、奥利瓦等人）[28/12/19 之前]
用于细粒度烹饪活动识别的MPII 烹饪活动数据集，其中还包括连续姿态估计挑战（Rohrbach、Amin、Andriluka 和 Schiele）[28/12/19 之前]
MPII 烹饪 2 数据集- 细粒度烹饪活动的大型数据集，是 MPII 烹饪活动数据集的扩展。(Rohrbach, Rohrbach, Regneri, Amin, Andriluka, Pinkal, Schiele) [28/12/19前]
MSR-Action3D - 基准 RGB-D 动作数据集（Microsoft Research Redmond and University of Wollongong） [28/12/19 之前]
MSRActionPair 数据集- ：用于从深度序列识别活动的定向 4D 法线直方图（中佛罗里达大学和微软）[28/12/19 之前]
MSRC-12 Kinect 手势数据集- 来自执行 12 种手势的人的 594 个序列和 719,359 帧（微软剑桥研究院）[28/12/19 之前]
MSRC-12 数据集- 人体运动序列，表示为身体部位的位置，以及相关的手势（微软剑桥研究院和剑桥大学）[28/12/19 之前]
MSRDailyActivity3D 数据集- 有 16 个活动（微软和西北大学） [28/12/19 之前]
ManiAc RGB-D 动作数据集：不同的操作动作，15 个不同的版本，30 个不同的操作对象，20 个长而复杂的链式操作序列 (Eren Aksoy) [28/12/19 之前]
MECCANO 数据集- MECCANO 数据集是第一个以自我为中心的视频数据集，用于研究类似工业环境中的人机交互。(F. Ragusa, A. Furnari, S. Livatino, GM Farinella) [1/2/21]
Mivia 数据集- 它由 14 个主题执行的 7 个高级操作组成。（萨利莫大学 Mivia 实验室）【28/12/19 之前】
MTL-AQA - 用于评估奥林匹克跳水质量的多任务学习数据集。超过 1500 个样本。它包含动作样本视频、细粒度动作类、专家评论（面向 AQA 的字幕）、评委的 AQA 分数。在任何可用的地方都包含来自多个视图的视频。除 AQA 外，还可用于字幕和细粒度动作识别。（帕尔马，莫里斯） [29/12/19]
MuHAVi - Multicamera Human Action Video Data (Hossein Ragheb) [28/12/19 之前]
多模态动作检测 (MAD) 数据集- 它包含由 20 个受试者执行的 35 个连续动作。（卡内基梅隆大学）【28/12/19前】
Multiview 3D Event dataset - 该数据集包括由 8 个科目执行的 8 个类别的事件（加州大学洛杉矶分校）[28/12/19 之前]
名古屋大学极低分辨率 FIR Image Action Dataset (Version 2018) - 从安装在天花板上的 16*16 远红外传感器阵列获得的动作数据集（Yasutomo Kawanishi） [28/12/2020]
NTU RGB+D Action Recognition Dataset - NTU RGB+D 是一个大规模的人类动作识别数据集(Amir Shahroudy) [28/12/19 之前]
Northwestern-UCLA Multiview Action 3D - 有 10 个动作类别：（西北大学和加州大学洛杉矶分校）[28/12/19 之前]
办公活动数据集- 它由 Kinect 2.0 从执行常见办公活动的不同主体获取的骨架数据组成。(A. Franco, A. Magnani, D. Maiop) [28/12/19 之前]
基于牛津电视的人机交互（牛津视觉几何组）[28/12/19 之前]
PA-HMDB51 - 带有潜在隐私泄漏属性注释的人类动作视频 (592) 数据集：肤色、性别、面部、裸体和关系（Wang、Wu、Wang、Wang、Jin）[28/12/19 之前]
议会- 议会数据集是 228 个视频序列的集合，描绘了希腊议会的政治演讲。(Michalis Vrigkas, Christophoros Nikou, Ioannins A. kakadiaris) [28/12/19 之前]
Procedural Human Action Videos - 该数据集包含大约 40,000 个使用 3D 游戏引擎生成的用于人类动作识别的视频。该数据集包含约 600 万帧，可用于训练和评估模型，不仅可以用于动作识别，还可以用于深度图估计、光流、实例分割、语义分割、3D 和 2D 姿态估计以及属性学习的模型。(Cesar Roberto de Souza) [28/12/19 之前]
RealVAD - 小组讨论中与会者的上半身检测、相关语音活动检测真实情况（说话、不说话）以及从视频中提取的声学特征（Cigdem Beyan、Muhammad Shahid、Vittorio Murino）[1/2 /21]
RGB-D 活动数据集-数据集中的每个视频都包含 2-7 个涉及与不同对象交互的动作。（康奈尔大学和斯坦福大学）【28/12/19前】
RGBD-Action-Completion-2016 - 该数据集包括 414 个完整/不完整的对象交互序列，跨越六个动作并呈现 RGB、深度和骨架数据。(Farnoosh Heidarivincheh, Majid Mirmehdi, Dima Damen) [28/12/19前]
基于 RGB-D 的动作识别数据集- 包含不同 rgb-d 动作识别数据集的列表和链接的论文。(Jing Zhang, Wanqing Li, Philip O. Ogunbona, Pichao Wang, Chang Tang) [28/12/19 之前]
RGBD-SAR Dataset - RGBD-SAR Dataset（电子科技大学和微软） [28/12/19前]
Rochester Activities of Daily Living Dataset (Ross Messing) [28/12/19 之前]
外科医生动作检测的 SARAS 内窥镜视觉挑战- 22,601 个带注释的训练帧，包含来自 21 个不同动作类（Cuzzolin、Singh Bawa、Skarga-Bandurova、Singh）的 28,055 个动作实例 [16/4/20]
SBU Kinect 交互数据集- 它包含八种类型的交互（石溪大学）[28/12/19 之前]
SBU-Kinect-Interaction dataset v2.0 - 它包含人类执行交互活动的 RGB-D 视频序列（Kiwon Yun 等）[28/12/19 之前]
SDHA 人类活动语义描述 2010 竞赛 - 人类交互（Michael S. Ryoo、JK Aggarwal、Amit K. Roy-Chowdhury）[28/12/19 之前]
SDHA 人类活动语义描述 2010 竞赛 - 鸟瞰图（Michael S. Ryoo、JK Aggarwal、Amit K. Roy-Chowdhury）[28/12/19 之前]
SFU Volleyball Group Activity Recognition - 排球视频的 2 级注释数据集（9 个球员的动作和 8 个场景的活动）。（M. Ibrahim、S. Muralidharan、Z. Deng、A. Vahdat 和 G. Mori / 西蒙弗雷泽大学）[28/12/19 之前]
ShakeFive 数据集- 仅包含两个动作，即握手和高五。（乌得勒支大学）【28/12/19 之前】
ShakeFive2 - 一个二元人类交互数据集，在 153 个高清视频（Coert van Gemeren、Ronald Poppe、Remco Veltkamp）中的 8 个类上带有肢体级别注释 [28/12/19 之前]
SoccerNet - 用于足球视频中动作发现的可扩展数据集：500 场足球比赛完全注释了主要动作（进球、卡片、替补）和超过 13000 场足球比赛，注释了 500K 评论，用于事件字幕和比赛摘要。(Silvio Giancola, Mohieddine Amine, Tarek Dghaily, Bernard Ghanem) [28/12/19 之前]
Sports Videos in the Wild (SVW) - SVW 由 4200 个视频组成，这些视频由 Coach Eye 智能手机应用程序的用户仅使用智能手机拍摄，这是由 TechSmith 公司开发的领先的运动训练应用程序。(Seyed Morteza Safdarnejad, Liu Xiaoming) [28/12/19 之前]
STAIR Actions - 包含 100 个日常人类动作类别的数据集（Yoshikawa、Lin、Takeuchi） [26/12/2020]
斯坦福体育赛事数据集（李佳）【28/12/19 之前】
微妙的二元活动- 3 个新的无偏见动作识别数据集，对最先进的计算机视觉具有挑战性，但人类很容易解决（Jacquot、Ying、Kreiman）[27/12/2020]
中山大学 3D 人-物交互数据集- 40 名受试者执行 12 项不同的活动（中山大学） [28/12/19 之前]
TAPOS - 在体育视频上开发的数据集，带有子动作的手动注释，包含 21 个奥运会运动类（邵、赵、戴、林）中超过 16,000 个动作实例 [27/12/2020]
THU-READ（清华大学 RGB-D 以自我为中心的动作数据集） - THU-READ 是一个大规模的数据集，用于 RGBD 视频中的动作识别，带有像素层手部注释。(Yansong Tang, Yi Tian, Jiwen Lu, Jianjiang Feng, Jie Zhou) [28/12/19前]
THUMOS - 临时未修剪视频中的动作识别！- 430 小时视频数据和 4500 万帧（Gorban、Idrees、Jiang、Zamir、Laptev Shah、Sukthanka）[28/12/19 之前]
TinyVIRAT - 视频中微小动作识别的数据集（Demir、Ugur、Yogesh S. Rawat 和 Mubarak Shah）[1/2/21]
丰田智能家居数据集- 日常生活中真实世界活动的数据集（Toyota Motors Europe & INRIA Sophia Antipolis） [30/12/19]
日常操作活动的TUM厨房数据集（Moritz Tenorth，Jan Bandouch）[28/12/19之前]
TV Human Interaction Dataset (Alonso Patron-Perez) [28/12/19 之前]
TJU 数据集- 包含 20 个受试者在两个不同环境中执行的 22 个动作；共 1760 个序列。（天津大学）【28/12/19前】
UCF-iPhone 数据集- 使用 Apple iPhone 4 智能手机上的惯性测量单元 (IMU) 记录了 (6-9) 名受试者的 9 项有氧运动。(Corey McCall, Kishore Reddy 和 Mubarak Shah) [28/12/19 之前]
使用智能手机数据集进行 UCI 人类活动识别- 30 名受试者在携带带有嵌入式惯性传感器的腰部智能手机（Anguita、Ghio、Oneto、Parra、Reyes-Ortiz）进行日常生活活动 (ADL) 的记录 [28/12 之前/19]
UNLV Dive & Gymvault - 用于评估奥林匹克跳水和奥林匹克体操跳马质量的数据集。它由动作样本的视频和相应的动作质量分数组成。（帕尔马，莫里斯） [29/12/19]
UPCV 动作数据集- 该数据集由 20 个受试者执行两次的 10 个动作组成。（帕特雷大学）【28/12/19前】
UC-3D 运动数据库- 可用数据类型包括高分辨率运动捕捉，使用来自 Xsens 的 MVN Suit 和 Microsoft Kinect RGB 和深度图像获取。（葡萄牙科英布拉系统与机器人研究所） [28/12/19 之前]
UCF 101 动作数据集101 个动作类，超过 13,000 个剪辑和 27 小时的视频数据（佛罗里达州中部大学）[28/12/19 之前]
UCF-Crime Dataset: Real-world Anomaly Detection in Surveillance Videos - 用于监控视频中真实世界异常检测的大规模数据集。它由1900个长且未经剪辑的现实世界监控视频（128小时）组成，包含打斗、交通事故、入室盗窃、抢劫等13个现实异常以及正常活动。（中佛罗里达大学计算机视觉研究中心）【28/12/19前】
UCFKinect - 数据集由 16 个动作组成（中佛罗里达大学奥兰多） [28/12/19 之前]
UCLA Human-Human-Object Interaction (HHOI) Dataset Vn1 - RGB-D 视频中的人机交互（Shu、Ryoo 和 Zhu）[28/12/19 之前]
UCLA Human-Human-Object Interaction (HHOI) Dataset Vn2 - RGB-D 视频中的人机交互（第 2 版）（Shu、Gao、Ryoo 和 Zhu）[28/12/19 之前]
UCR Videoweb 多相机广域活动数据集(Amit K. Roy-Chowdhury) [28/12/19 之前]
UTD-MHAD - 八名受试者四次执行 27 个动作。（德克萨斯大学达拉斯分校）【28/12/19前】
UTKinect 数据集- 10 名受试者两次执行十种人类行为（德克萨斯大学） [28/12/19 之前]
UWA3D Multiview Activity Dataset - 30 项活动由 10 个人进行（西澳大利亚大学） [28/12/19 之前]
佛罗里达州中部大学 - 现实视频中的 50 个动作类别识别 (3 GB) (Kishore Reddy) [28/12/19 之前]
佛罗里达州中部大学 - ARG航空相机、屋顶相机和地面相机（UCF 计算机视觉实验室） [28/12/19 之前]
中佛罗里达大学 - 故事片动作数据集（中佛罗里达大学）[28/12/19 之前]
中佛罗里达大学 - 体育动作数据集（中佛罗里达大学）[28/12/19 之前]
中佛罗里达大学 - YouTube 动作数据集（体育）（中佛罗里达大学）[28/12/19 之前]
Unsegmented Sports News Videos - 包含 74 个体育新闻视频的数据库，其中标记了 10 个体育类别。旨在测试多标签视频标记。(T. Hospedales, Edinburgh/QMUL) [28/12/19 之前]
乌得勒支多人运动基准 (UMPM)。- 一组人的视频记录以及基于动作捕捉数据的真实情况。（NP van der Aa、X. Luo、GJ Giezeman、RT Tan、RC Veltkamp。）[28/12/19 之前]
VIRAT 视频数据集- 从涉及人和车辆的两大类活动（单个对象和两个对象）中识别事件。(Sangmin Oh et al) [28/12/19 之前]
维罗纳社交互动数据集(Marco Cristani) [28/12/19 之前]
ViHASi: Virtual Human Action Silhouette Data (userID: VIHASI password: virtual$virtual) (Hossein Ragheb, Kingston University) [28/12/19 之前]
Videoweb（多相机）活动数据集（B. Bhanu、G. Denina、C. Ding、A. Ivers、A. Kamal、C. Ravishankar、A. Roy-Chowdhury、B. Varda）[28/12/19 之前]
WVU多视图动作识别数据集（西弗吉尼亚大学）[28/12/19之前]
用于锻炼动作的WorkoutSU-10 Kinect 数据集 (Ceyhun Akgul) [28/12/19 之前]
WorkoutSU-10 数据集- 包含由专业教练为治疗目的选择的锻炼动作。（萨班哲大学）【28/12/19前】
腕戴式摄像机视频数据集-对象操作（Ohnishi、Kanehira、Kanezaki、Harada） [28/12/19 之前]
YouCook - 88 个带注释的开源 YouTube 烹饪视频 (Jason Corso) [28/12/19 之前]
YouTube-8M 数据集- 用于视频理解研究的大型多样化标记视频数据集（Google Inc.） [28/12/19 之前]

农业

Aberystwyth Leaf Evaluation Dataset - Timelapse 植物图像，用手标记一些时间步长的叶级分割，以及来自植物牺牲的生物数据。(Bell, Jonathan; Dee, Hannah M.) [28/12/19 之前]
Fieldsafe - 用于农业障碍检测的多模式数据集。(奥胡斯大学) [28/12/19前]
KOMATSUNA 数据集- 该数据集设计用于使用顺序多视图 RGB 图像和深度图像对叶子进行实例分割、跟踪和重建。(九州大学内山英明) [28/12/19之前]
叶计数数据集- 用于估计小植物生长阶段的数据集。(奥胡斯大学) [28/12/19前]
叶分割挑战烟草和拟南芥植物图像（Hanno Scharr、Massimo Minervini、Andreas Fischbach、Sotirios A. Tsaftaris）[28/12/19 之前]
多物种果花检测- 该数据集由四组花图像组成，来自三种不同的树种：苹果、桃子和梨，以及随附的地面实况图像。(Philipe A. Dias, Amy Tabb, Henry Medeiros) [28/12/19 之前]
Plant Phenotyping Datasets - 适用于植物和叶子检测、分割、跟踪和物种识别的植物数据 (M. Minervini, A. Fischbach, H. Scharr, SA Tsaftaris) [28/12/19 之前]
植物幼苗数据集- 12 种杂草的高分辨率图像。(奥胡斯大学) [28/12/19前]

属性识别

具有属性 2 的动物- 50 个动物类别的 37322（免费许可）图像，每个类别有 85 个二进制属性。（Christoph H. Lampert，IST 奥地利）[28/12/19 之前]
属性数据集- 包含 230 个类别的 78,017 张图像，在实例级别（赵、富、梁、吴、王、王）用 359 个视觉、语义和主观属性进行注释 [30/12/2020]
用于理解非结构化社交活动的属性学习- 包含 10 类非结构化社交事件以进行识别的视频数据库，还标注了 69 个属性。(Y. Fudan/QMUL, T. Hospedales Edinburgh/QMUL) [28/12/19前]
鸟类该数据库包含六种不同鸟类的 600 张图像（每张 100 个样本）。(Svetlana Lazebnik、Cordelia Schmid 和 Jean Ponce) [28/12/19 之前]
蝴蝶该数据库包含七种不同种类的蝴蝶的 619 幅图像。(Svetlana Lazebnik、Cordelia Schmid 和 Jean Ponce) [28/12/19 之前]
CAER (Context-Aware Emotion Recognition) - 用于情绪识别和面部表情识别的大规模图像和视频数据集 (Lee, Kim, Kim, Park, and Sohn) [29/12/19]
CALVIN 研究组数据集- 使用眼动追踪的对象检测、imagenet 边界框、同步活动、火柴人和身体姿势、youtube 对象、面部、马、玩具、视觉属性、形状类（CALVIN 组）[28/12/19 之前]
CelebA - 大规模 CelebFaces 属性数据集(Ziwei Liu, Ping Luo, Xiaogang Wang, Xiaoou Tang) [28/12/19 之前]
DukeMTMC-attribute - DukeMTMC-reID 的 23 个行人属性（Lin、Zheng、Zheng、Wu 和 Yang） [28/12/19 之前]
EMOTIC（上下文中的情绪） - 嵌入自然环境中的人 (34357) 图像，用 2 种不同的情绪表示进行注释。(Ronak kosti, Agata Lapedriza, Jose Alvarez, Adria Recasens) [28/12/19 之前]
包含 27 项人类属性的HAT数据库（Gaurav Sharma、Frederic Jurie）[28/12/19 之前]
用于学习相关属性的 LFW-10 数据集- 包含 10,000 对人脸图像的数据集，具有 10 个属性的实例级注释。(CVIT, IIIT Hyderabad。) [28/12/19 之前]
Market-1501-attribute - 1501 个购物者的 27 个视觉属性。(林、郑、郑、吴、杨) [28/12/19前]
多类天气数据集- 我们的多类基准数据集包含来自 6 个常见类别的 65,000 幅图像，用于晴天、多云、雨天、下雪、阴霾和打雷天气。该数据集有利于天气分类和属性识别。(迪林) [28/12/19前]
个人照片集中的人物识别- 我们引入了三个更难的分割，用于评估和长期属性注释以及每张照片的时间戳元数据。（哦，Seong Joon 和 Benenson，Rodrigo 和 Fritz，Mario 和 Schiele，Bernt） [28/12/19 之前]
UT-Zappos50K 鞋类- 大型鞋类数据集，包含 50,000 个目录图像和 11 个细粒度属性上的 50,000 多个成对相对属性标签（Aron Yu、Mark Stephenson、Kristen Grauman、UT Austin）[28/12/19 之前]
Visual Attributes Dataset超过 500 个对象类（有生命的和无生命的）的视觉属性注释，它们都在 ImageNet 中表示。每个对象类都根据 636 个属性（例如，有毛皮、金属制成、圆形）的视觉属性进行注释。(30/12/19 之前) [28/12/19 之前]
视觉隐私 (VISPR) 数据集- 隐私多标签数据集（22k 图像，68 个隐私属性）（Orekondy、Schiele、Fritz）[28/12/19 之前]
WIDER Attribute Dataset - WIDER Attribute 是一个大规模的人类属性数据集，包含 13789 张图像，属于 30 个场景类别，以及 57524 个人类边界框，每个边界框用 14 个二进制属性进行注释。（李、以宁与黄、陈与洛、陈变与唐、肖欧）【28/12/19前】

自动驾驶

AMUSE - 在多次试驾期间在真实交通场景中获取的汽车多传感器 (AMUSE) 数据集。(Philipp Koschorrek 等) [28/12/19 之前]
ApolloCar3D - 5000 张带有 60K 汽车实例的标记图像（宋、王、周、朱、关、戴、苏、李、杨）[26/1/20]
ApolloScape - 高分辨率相机和 Riegl 采集系统。我们的数据集是在不同交通条件下的不同城市收集的。74555个视频帧及其像素级和实例级标注（北京大学/百度） [18/1/20]
Argoverse - 由非常详细的地图支持的两个公共数据集，用于测试、实验和教授自动驾驶汽车如何理解周围的世界；超过 300,000 个策划场景、113 个场景的 3D 跟踪注释和用于运动预测的 324,557 条有趣的车辆轨迹（Chang、Lambert、Sangkloy、Singh、Bak、Hartnett、Wang、Carr、Lucey、Ramanan、Hays）[18/1/20]
自动驾驶- 语义分割、行人检测、虚拟世界数据、远红外、立体声、驾驶员监控。（CVC研究中心和UAB和UPC大学）[28/12/19之前]
博世小型交通灯数据集 (BSTLD) - 用于交通灯检测、跟踪和分类的数据集。[28/12/19 之前]
DrivingStereo - 自动驾驶场景中立体匹配的大规模数据集。180k 立体图像，涵盖多种驾驶场景（杨、宋、黄、邓、石、周） [28/12/19 之前]
Boxy Vehicle detection dataset - 一个车辆检测数据集，在 200,000 张图像中包含 199 万个带注释的车辆。它包含 AABB 和关键点标签。[28/12/19 之前]
CASR：骑自行车的手臂标志识别- 约 10 秒的小片段显示骑自行车的人执行手臂标志。这些视频是使用消费级相机获取的。注释了 219 个手臂标志动作。(方志杰, Antonio M. Lopez) [13/1/20]
DDD17 - DAVIS 驾驶数据集 2017 - “数据集包含来自 DAVIS346 摄像头的记录，主要来自高速公路上的驾驶场景以及地面实况汽车数据，例如速度、转向、GPS 等。”（Binas、Neil、Liu、Delbruck，神经信息学研究所, UZH 和 ETH Zurich) [27/12/2020]
DDD20 - 端到端事件相机驾驶数据集- 添加到 DDD17。收集和整理了另外 41 小时的 DAVIS E2E 驾驶数据。（神经信息学研究所，UZH 和 ETH Zurich）[27/12/2020]
DET: A High-resolution DVS Dataset for Lane Extraction - 用于车道提取的高分辨率 DVS 数据集。 (Cheng, Luo, Yang, Yu, Chen, Li) [27/12/2020]
驾驶事件相机数据集- 使用 VGA (640x480) 事件相机 (Samsung DVS Gen3) 和传统 RGB 相机 (Huawei P20 Pro) 记录的序列，这些相机放置在行驶在苏黎世的汽车的挡风玻璃上。(Davide Scaramuzza, Henri Rebecq) [23/1/20]
福特校园视觉和激光雷达数据集- 来自专业 (Applanix POS LV) 和消费者 (Xsens MTI-G) 惯性测量单元 (IMU)、Velodyne 3D 激光雷达扫描仪、两个推扫式前视 Riegl 激光雷达的时间注册数据Point Grey Ladybug3 全方位摄像系统（Pandey、McBride、Eustice） [28/12/19 之前]
FRIDA（雾路图像数据库）图像数据库- 用于可见性和对比度恢复算法性能评估的图像。FRIDA：18 个城市道路场景的 90 张合成图像。FRIDA2：66 个不同道路场景的 330 张合成图像，视角接近车辆驾驶员的视角。(Tarel, Cord, Halmaoui, Gruyer, Hautiere) [28/12/19 之前]
GEN1 汽车检测数据集- “数据集是使用分辨率为 304×240 像素的 PROPHESEE GEN1 传感器记录的，安装在汽车仪表板上，包括行人和汽车的边界框注释。”（de Tournemire、Nitti、Perot、Sironi） 27/12/2020]
H3D - Honda Research 3D 数据集- 360 度 LiDAR 数据集（来自 Velodyne-64 的密集点云），160 个拥挤且高度交互的交通场景，1,071,302 个 3D 边界框标签，8 类常见的交通参与者（Patil、Malla、Gang、Chen）[ 18/1/20]
House3D - House3D 是一个虚拟 3D 环境，由数千个室内场景组成，配备了来自 SUNCG 数据集的各种场景类型、布局和对象。它由超过 45,000 个室内 3D 场景组成，从工作室到带游泳池和健身房的两层楼房屋。所有 3D 对象都使用类别标签进行了完整注释。环境中的代理可以访问多种模式的观察结果，包括 RGB 图像、深度、分割掩码和自上而下的 2D 地图视图。渲染器以每秒数千帧的速度运行，使其适用于大规模 RL 训练。(Yu Wu, Yuxin Wu, Georgia Gkioxari, Yuandong Tian, facebook 研究) [28/12/19 之前]
印度驾驶数据集 (IDD) - 来自印度的非结构化驾驶条件，具有 50,000 帧（10,000 个语义和 40,000 个粗注释），用于训练自动驾驶汽车使用对象检测、场景级和实例级语义分割（CVIT、IIIT Hyderabad 和 Intel ) [28/12/19 之前]
自动驾驶中的联合注意 (JAAD) - 该数据集包括行人和汽车的实例，主要用于自动驾驶环境中的行为研究和检测。(Iuliia Kotseruba, Amir Rasouli 和 John K. Tsotsos) [28/12/19 之前]
LISA 车辆检测数据集- 各种照明和交通条件下的彩色第一人称驾驶视频 (Sivaraman, Trivedi) [28/12/19 之前]
LLAMAS 无监督数据集- 包含 100,000 张图像的车道标记检测和分割数据集，具有 3d 线、像素级虚线标记和单条线的曲线。[28/12/19 之前]
失物招领数据集- 失物招领数据集解决了自动驾驶应用中检测意外小道路危险（通常由丢失货物引起）的问题。(Sebastian Ramos, Peter Pinggera, Stefan Gehrig, Uwe Franke, Rudolf Mester, Carsten Rother) [28/12/19 之前]
多车辆立体事件相机数据集- 包含一对立体 DAVIS 346b 事件相机的多个序列，其中包含真实姿势、深度图和光流。(lex Zihao Zhu, Dinesh Thakur, Tolga Ozaslan, Bernd Pfrommer, Vijay Kumar, Kostas Daniilidis) [28/12/19 之前]
nuTonomy 场景数据集（nuScenes） - nuScenes 数据集是一个大规模的自动驾驶数据集。它具有：完整的传感器套件（1x LIDAR、5x RADAR、6x 摄像头、IMU、GPS）、1000 个每个 20 秒的场景、1,440,000 个摄像头图像、400,000 次激光雷达扫描、两个不同的城市：波士顿和新加坡、左右手交通、详细地图信息、25 个对象类的手动注释、以 2Hz 注释的 1.1M 3D 边界框、可见性、活动和姿势等属性。(Caesar et al) [28/12/19 之前]
ODMS: Object Depth via Motion and Segmentation Dataset - 用于通过运动和分割学习对象深度的数据集，其中包括可扩展的训练数据和跨多个应用领域的基准评估 (Griffin,Corso) [26/12/2020]
Playing for Benchmarks (VIPER) - 包含 250K 帧城市场景的视频序列，从一个逼真的开放世界计算机游戏中提取。地面实况注释可用于多种视觉感知任务（语义、实例、全景分割、光流、3D 对象检测、视觉里程计）（Richter、Hayder、Koltun）[12/08/20]
Playing for Data: Ground Truth from Computer Games - 从逼真的开放世界计算机游戏（Richter、Vineet、Roth、Koltun）中提取的城市场景的 25K 合成图像和语义分割ground truth [12/08/20]
RADIATE - 在各种天气场景中收集自动驾驶数据集，以促进对恶劣天气下稳健可靠的车辆感知的研究。它包括从雷达和光学图像到 3D LiDAR 点云和 GPS 的多种传感器模式。(Sheeny、de Pellegrin、Saptarshi、Ahrabian、Wang 和 Wallace) [26/12/2020]
RESIDE (Realistic Single Image DEhazing) - 目前最大规模的基准测试，包括合成和真实世界的朦胧图像，用于图像去雾研究。RESIDE 突出了多样化的数据源和图像内容，并服务于各种培训或评估目的。（李博义、任文启、傅登攀、陶大成、丹峰、曾文君、王张阳）【28/12/19前】
RUGD：机器人非结构化地面驾驶- 从移动机器人收集的视频序列，具有超过 7,000 个注释帧的基准，用于语义分割以指导非结构化越野环境中的自主导航（Wigness、Eum、Rogers、Han、Kwon）[27/12 /2020]
SemanticKITTI - 使用 LiDAR 序列（Behley、Garbade、Milioto、Quenzel、Behnke、Stachniss、Gall）进行语义场景理解的数据集 [18/1/20]
SVIRO - 合成车辆内部后座占用- 十种不同车辆内部的 25.000 个合成场景，用于多个模拟传感器输入和地面实况数据（Dias Da Cruz、Wasenmueller、Beise、Stifter、Stricker）[29/12/2020]
图像和注释的合成集合- 在驾驶场景的上下文中帮助语义分割和相关场景理解问题的目的。(计算机视觉中心，UAB) [28/12/19之前]
SYNTHIA - 用于训练自动驾驶汽车的大型虚拟世界图像集（约半百万）。(计算机视觉中心ADAS组) [28/12/19之前]
TRoM：清华道路标记- 这是一个有助于自动驾驶和 ADAS 道路标记分割领域的数据集。（刘小龙、邓志东、曹乐乐、路宏超）【28/12/19前】
TUM City Campus - 移动激光扫描 (MLS) 拍摄的城市点云，用于分类、对象提取和变化检测（Stilla、Hebel、Xu、Gehrung） [3/1/20]
密歇根大学北校区长期视觉和 LIDAR 数据集- 27 个会话在 15 个月内大约每两周间隔一次，在室内和室外，不同的轨迹，在所有四个季节的一天中的不同时间。包括：移动障碍物（例如，行人、骑自行车者和汽车）、不断变化的照明、不同的视角、季节性和天气变化（例如，落叶和雪）以及由施工引起的长期结构变化。包括真实姿势。(Carlevaris-Bianco, Ushani, Eustice) [28/12/19 之前]
UZH-FPV 无人机赛车数据集- 用于视觉惯性里程计和 SLAM。28 个真实世界的室内外第一人称视图序列、cintaining 图像、IMU、事件和地面实况（Delmerico、Cieslewski、Rebecq、Faessler、Scaramuzza）[28/12/19 之前]
VLMV（车辆车道合并视觉）基准- 具有多视图视频（4 个摄像头）和对象定位 (GNSS-RTK) 的大规模数据集，用于观察有目标的车道合并操作 (a) 基于摄像头的定位评估车辆和 (b) 学习合作机动（K. Cordes 和 H. Broszio）[1/2/21]

生物/医疗

2008 MICCAI MS病变分割挑战赛（美国国立卫生研究院神经科学研究蓝图） [28/12/19前]
ASU DR-AutoCC 数据- 糖尿病视网膜病变分类数据集的多实例学习特征空间（Ragav Venkatesan, Parag Chandakkar, Baoxin Li - Arizona State University） [28/12/19 之前]
Aberystwyth Leaf Evaluation Dataset - Timelapse 植物图像，用手标记一些时间步长的叶级分割，以及来自植物牺牲的生物数据。(Bell, Jonathan; Dee, Hannah M.) [28/12/19 之前]
ADP：数字病理学图集- 从 100 张载玻片中提取的 17,668 个组织学补丁图像，注释了来自不同器官的多达 57 种分层组织类型 (HTT) - 目的是为数字化整体中组织类型的监督多标签学习提供训练数据幻灯片图像 (Hosseini, Chan, Tse, Tang, Deng, Norouzi, Rowsell, Plataniotis, Damaskinos) [14/1/20]
用于椎骨定位基准的带注释的脊柱 CT 数据库，125 名患者，242 次扫描 (Ben Glockern) [28/12/19 之前]
骨质疏松症诊断的骨骼纹理表征- 来自骨质疏松症和健康受试者的骨骼微结构的纹理图像显示出高度相似性，从而大大增加了对此类纹理进行分类的难度（奥尔良医院 - 法国（Rachid Jennane））[28/12/ 2020]
BRATS - 脑多参数磁共振图像中肿瘤结构的识别和分割（TU Munchen 等） [28/12/19 之前]
乳腺超声数据集 B - 具有 53 个恶性病变和 110 个良性病变的二维乳腺超声图像。(UDIAT 诊断中心, MH Yap, R. Marti) [28/12/19 之前]
Calgary-Campinas Public Brain MR 数据集：在来自三个不同供应商（GE、飞利浦和西门子）的扫描仪上以两种磁场强度（1.5 T 和 3 T）采集的 359 名受试者的 T1 加权脑 MRI 体积。扫描对应于老年受试者。（Souza、Roberto、Oeslle Lucena、Julia Garrafa、David Gobbi、Marina Saluzzi、Simone Appenzeller、Leticia Rittner、Richard Frayne 和 Roberto Lotufo）[28/12/19 之前]
CAMEL 结直肠腺瘤数据集- 用于弱监督学习的图像级标签，包含由病理学家（宋和王）收集和标记的 177 张全幻灯片图像（156 张包含腺瘤） [29/12/19]
ChestX-Det - 具有实例级注释的胸部 X 射线数据集，包括 3,578 张图像的 13 类疾病/异常的实例级注释（Deepwise AI Lab）[26/12/2020]
CheXpert - 一个大型胸部 X 射线数据集和自动胸部 X 射线解释竞赛，其中包含不确定性标签和放射科医生标记的参考标准评估集（Irvin、Rajpurkar 等人）[28/12/19 之前]
Cholec80：80 个胆囊腹腔镜视频，带有相位和工具信息注释。(Andru Putra Twinanda) [28/12/19 之前]
CRCHistoPhenotypes - 标记的细胞核数据- 结肠直肠癌？组织学图像？由近 30,000 个点状细胞核组成，其中超过 22,000 个标记有细胞类型（Rajpoot + Sirinukunwattana）[28/12/19 之前]
Cavy Action Dataset - 16 个序列，分辨率为 640 x 480，以每秒 7.5 帧 (fps) 的速度记录，总共约 31621506 帧 (272 GB) 的交互豚鼠（豚鼠）（Al-Raziqi 和 Denzler）[28/12/之前19]
Cell Tracking Challenge Datasets - 2D/3D time-lapse video sequence with ground truth(Ma et al., Bioinformatics 30:1609-1617, 2014) [28/12/19 之前]
计算机断层扫描肺气肿数据库(Lauge Sorensen) [28/12/19 之前]
COPD 机器学习数据集- 一组源自肺计算机断层扫描 (CT) 图像的特征数据集，可用于诊断慢性阻塞性肺疾病 (COPD)。该数据库中的图像是弱标记的，即每张图像都给出了诊断（COPD 或无 COPD），但不知道肺部的哪些部分受到影响。此外，图像是在不同的地点和不同的扫描仪获得的。这些问题与机器学习中的两种学习场景有关，即多实例学习或弱监督学习，以及迁移学习或领域适应。(Veronika Cheplygina, Isabel Pino Pena, Jesper Holst Pedersen, David A. Lynch, Lauge S., Marleen de Bruijne) [28/12/19 之前]
CREMI: MICCAI 2016 Challenge - 6 卷神经组织电子显微镜、神经元和突触分割、突触伙伴注释。(Jan Funke, Stephan Saalfeld, Srini Turaga, Davi Bock, Eric Perlman) [28/12/19 之前]
CRIM13 Caltech Resident-Intruder Mouse 数据集- 237 个 10 分钟视频 (25 fps)，带有动作注释（13 类）（Burgos-Artizzu、Dollar、Lin、Anderson 和 Perona）[28/12/19 之前]
CVC 结肠数据库- 结肠镜检查视频的注释视频序列。它包含来自 15 项不同研究的 15 个短结肠镜检查序列。在每个序列中显示一个息肉。(Bernal, Sanchez, Vilarino) [28/12/19 之前]
糖尿病足溃疡分类数据集-糖尿病足溃疡分类训练数据（Goyal、Reeves、Davison、Rajbhandari、Spragg、Yap） [30/12/2020]
糖尿病足溃疡对象检测数据集- 糖尿病足溃疡检测训练数据（Cassidy、Reeves、Joseph、Gillespie、O'Shea、Rajbhandari、Maiya、Frank、Boulton、Armstrong、Najafi、Wu、Yap）[30/12/2020]
DIADEM：轴突和树突形态学竞赛的数字重建（艾伦脑科学研究所等）[28/12/19 之前]
DIARETDB1 - 标准糖尿病视网膜病变数据库（拉彭兰塔科技大学）[28/12/19 之前]
驱动：用于血管提取的数字视网膜图像（乌得勒支大学）[28/12/19 之前]
DeformIt 2.0 - 图像数据增强工具：使用来自单个图像分割对（Brian Booth 和 Ghassan Hamarneh）的地面实况分割模拟新图像 [28/12/19 之前]
可变形图像配准实验室数据集- 用于可变形图像配准 (DIR) 空间精度性能的客观和严格评估。(Richard Castillo et al.) [28/12/19 之前]
DERMOFIT 皮肤癌数据集- 在相同控制条件下捕获的 10 个类别的 1300 个病变。包括病变分割掩码（Fisher、Rees、Aldridge、Ballerini 等）[28/12/19 之前]
皮肤镜图像(Eric Ehrsam) [28/12/19 之前]
EATMINT（用于中介交互的情绪意识工具）数据库- EATMINT 数据库包含协作环境中情感和社会行为的多模式和多用户记录。(Guillaume Chanel, Gaelle Molinari, Thierry Pun, Mireille Betrancourt) [28/12/19 之前]
爱丁堡猪行为数据集- 23 天白天猪的视频，从几乎高架的 RGBD 摄像机中捕获，一个围栏有 8 头正在生长的猪。一些基本事实可用于猪检测、跟踪和行为。（贝尔加米尼、皮尼、西蒙尼、维扎尼、卡尔德拉拉、德斯、费舍尔）11/7/21]
EPT29. 该数据库包含 29 个 EPT 分类群的 1613 个标本的 4842 张图像：（Tom 等）[28/12/19 之前]
EyePACS - 视网膜图像数据库由超过 300 万张不同程度的糖尿病视网膜病变 (EyePACS) 不同人群的视网膜图像组成 [28/12/19 之前]
FIRE 眼底图像配准数据集- 134 个视网膜图像对和用于配准的真实情况。(FORTH-ICS) [28/12/19 之前]
FMD - 荧光显微镜降噪数据集- 12,000 张真实荧光显微镜图像 (Zhang, Zhu, Nichols, Wang, Zhang, Smith, Howard) [28/12/19 之前]
FocusPath - 数字病理学（显微镜）图像的焦点质量评估。864 条图像路径被 16 级散焦镜头自然模糊，提供 GT 级对焦级别。(Hosseini, Zhang, Plataniotis) [28/12/19 之前]
Histology Image Collection Library (HICL) - HICL 汇集了来自各种疾病的 3870 张组织病理学图像（迄今为止），例如脑癌、乳腺癌和 HPV（人类乳头瘤病毒）-宫颈癌。（医学图像和信号处理（MEDISP）实验室，生物医学工程系，西阿提卡大学工程学院） [28/12/19前]
蜜蜂分割数据集- 它是一个包含数百只蜜蜂在蜂窝二维表面上的位置和方向角的数据集。(Bozek K, Hebert L, Mikheyev AS, Stephesn GJ) [28/12/19 之前]
IIT MBADA 小鼠- 小鼠行为数据。FLIR A315，30fps 320??240px 空间分辨率，50x50cm 开放舞台，三个不同小鼠对的两个专家，小鼠身份。（意大利理工学院，PAVIS 实验室） [28/12/19 之前]
印度糖尿病视网膜病变图像数据集- 该数据集由像素级注释的视网膜眼底图像组成，用于与糖尿病视网膜病变相关的病变。此外，它还提供了糖尿病性视网膜病变和糖尿病性黄斑水肿的疾病严重程度。该数据集可用于开发和评估用于糖尿病视网膜病变早期检测的图像分析算法。(Prasanna Porwal, Samiksha Pachade, Ravi Kamble, Manesh Kokare, Girish Deshmukh, Vivek Sahasrabuddhe, Fabrice Meriaudeau) [28/12/19 之前]
iPanda-50 - 具有附加眼罩注释的细粒度大熊猫识别数据集（Le Wang、Rizhi Ding、Yuanhao Zhai、Qilin Zhang、Wei Tang、Nanning Zheng 和 Gang Hua） [1/2/21]
IRMA（医学应用中的图像检索） - 该集合汇编了匿名放射照片（Deserno TM，Ott B）[28/12/19 之前]
IVDM3Seg - 至少 7 个下脊柱IVD 的24 个 3D 多模态 MRI 数据集，从两个不同阶段（Zheng、Li、Belavy）的 12 名受试者收集 [28/12/19 之前]
JIGSAWS - JHU-ISI 手术手势和技能评估工作集（用于人体运动建模的手术活动数据集，使用达芬奇手术系统从八位具有不同技能水平的外科医生执行三项基本手术任务的五次重复中捕获。它包含：运动学和视频数据，加上手动注释。（Carol Reiley 和 Balazs Vagvolgyi）[28/12/19 之前]
KID - 用于医疗决策支持的胶囊内窥镜数据库 (Anastasios Koulaouzidis 和 Dimitris Iakovidis) [28/12/19 之前]
叶分割挑战烟草和拟南芥植物图像（Hanno Scharr、Massimo Minervini、Andreas Fischbach、Sotirios A. Tsaftaris）[28/12/19 之前]
LIDC-IDRI - 肺图像数据库联盟图像收集 (LIDC-IDRI) 包括诊断和肺癌筛查胸部计算机断层扫描 (CT) 扫描，其中带有标记注释的病变。(30/12/19 之前) [28/12/19 之前]
LITS 肝脏肿瘤分割- 130 次 3D CT 扫描，对肝脏和肝脏肿瘤进行分割。Codalab.org (Patrick Christ) [28/12/19 之前]
乳腺钼靶影像分析首页-数据库链接合集【28/12/19前】
MCC：黑色素瘤癌细胞数据集- 这个多时相图像数据集提供了对特定药物促进的癌细胞迁移和抗迁移的更好理解，对处理和未处理的细胞进行分类，可以表征表型和形态药物效应 (VF Mota) [29 /12/2020]
医学图像数据库- 乳房异常的超声图像数据库和真实情况。(Prof. Stanislav Makhanov, biomedsiit.com) [28/12/19 之前]
MiniMammographic Database (乳腺影像分析学会) [28/12/19前]
MIT CBCL 自动鼠标行为识别数据集（Jhuang、Garrote、Yu、Khilnani、Poggio、Steele 和 Serre）[28/12/19 之前]
MitoEM - 两个 4096x4096x1000 体积，用于从脑组织的电子显微镜 (EM) 图像中分割线粒体实例。（魏等，哈佛大学） [26/12/2020]
飞蛾细粒度识别- 675 个相似类，5344 张图像（Erik Rodner 等人）[28/12/19 之前]
Mouse Embryo Tracking Database - 细胞分裂事件检测 (Marcelo Cicconet, Kris Gunsalus) [28/12/19 之前]
MUCIC：马萨里克大学细胞图像集- 用于基准测试的细胞/组织的 2D/3D 合成图像（马萨里克大学）[28/12/19 之前]
NIH 胸部 X 射线数据集- 来自 30,805 名独特患者的 112,120 张带有疾病标签的 X 射线图像。(NIH) [28/12/19 之前]
OASIS - Open Access Series of Imaging Studies - 500+ 大脑 MRI 数据集（华盛顿大学、哈佛大学、生物医学信息学研究网络）[28/12/19 之前]
ORDS 数据集- 视网膜图像的视盘分割（Sarhan、Abdullah、Ali Al-Khaz'Aly、Adam Gorner、Andrew Swift、Jon Rokne、Reda Alhajj 和 Andrew Crichton）[1/2/21]
ORVS 数据集- 数据集用于从视网膜图像中分割视网膜血管（Abdullah Sarhan、Jon Rokne、Reda Alhajj 和 Andrew Crichton）[1/2/21]
Plant Phenotyping Datasets - 适用于植物和叶子检测、分割、跟踪和物种识别的植物数据 (M. Minervini, A. Fischbach, H. Scharr, SA Tsaftaris) [28/12/19 之前]
RatSI：大鼠社交互动数据集- 9 个完全注释（11 类）视频（15 分钟，25 FPS），两只大鼠在笼子里进行社交互动（Malte Lorbach，Noldus Information Technology）[28/12/19 之前]
RECOVERY-FA19 - 超宽场 FA 和带注释的像素级二元血管图，可用于视网膜血管分割算法的开发和评估（Li Ding 等人）[29/12/2020]
视网膜眼底图像 - 血管分叉和交叉的基本事实（格罗宁根大学）[28/12/19 之前]
外科医生动作检测的 SARAS 内窥镜视觉挑战- 22,601 个带注释的训练帧，包含来自 21 个不同动作类（Cuzzolin、Singh Bawa、Skarga-Bandurova、Singh）的 28,055 个动作实例 [16/4/20]
SCORHE - 1、2 和 3 鼠标行为视频，9 种行为，（Ghadi H. Salem，等人，NIH）[28/12/19 之前]
SLP（同时收集的多模态躺姿） - 床上姿势的大规模数据集包括：2 个数据收集设置：(a) 医院设置：7 名参与者，以及 (b) 家庭设置：102 名参与者（29 名女性，年龄范围： 20-40）。4 种成像方式：RGB（常规网络摄像头）、IR（FLIR LWIR 摄像头）、DEPTH (Kinect v2) 和压力图（Tekscan 压力传感图）。3 覆盖条件：揭开、床单和毯子。带有 14 个关节的完整标记姿势。（奥斯塔达巴斯和刘）[2/1/20]
SNEMI3D - EM 图像中神经突的 3D 分割 [28/12/19 之前]
Spine Dataset - 从 X 射线到 CT 和 MRI 的各种脊柱图像 (Suo Li) [30/12/2020]
Retina 的结构化分析- 描述（400 多个视网膜图像，带有地面实况分割和医学注释）（30/12/19 之前）[28/12/19 之前]
脊柱和心脏数据（伦敦安大略数码影像集团，李硕） [28/12/19前]
Stonefly9该数据库包含石蝇（Tom 等）9 个分类群的 773 个标本的 3826 张图像 [28/12/19 之前]
合成迁移细胞 - 6个人工迁移细胞（嗜中性粒细胞）超过 98 个时间帧，不同级别的高斯/泊松噪声和不同路径特征与真实情况。（Constantino Carlos Reyes-Aldasoro 博士等人）[28/12/19 之前]
UBFC-RPPG 数据集- 使用 CMS50E 透射式脉搏血氧仪（Bobbia、Macwan、Benzeth、Mansouri、Dubois）获得的远程光体积描记 (rPPG) 视频数据和地面实况 [28/12/19 之前]
Uni Bremen Open, Abdominal Surgery RGB 数据集- 使用 Kinect v2 记录完整、开放的腹部手术，Kinect v2 直接安装在患者上方，俯视患者和工作人员。(Joern Teuber, Gabriel Zachmann, 不来梅大学) [28/12/19 之前]
中佛罗里达大学 - DDSM：乳腺 X 线筛查数字数据库（中佛罗里达大学） [28/12/19 之前]
VarroaDataset - 此数据集的目的是提供蜜蜂和寄生虫 Varroa destructor 的高分辨率图像 (160x280px)。(CVL, Schurischuster Stefan, Martin Kampel) [1/2/21]
VascuSynth - 120 个 3D 血管树状结构，具有基本事实（Mengliu Zhao，Ghassan Hamarneh）[28/12/19 之前]
VascuSynth - 血管合成器在 3D 体积中生成血管树。(Ghassan Hamarneh, Preet Jassi, 赵梦留) [28/12/19前]
York 心脏 MRI 数据集(Alexander Andreopoulos) [28/12/19 之前]

相机校准

折反射相机标定图像（Yalin Bastanlar） [28/12/19前]
GoPro-Gyro 数据集- 该数据集包含多个具有相应陀螺仪测量值的广角滚动快门视频序列（Hannes 等）[28/12/19 之前]
LO-RANSAC - 用于估计单应性和对极几何的 LO-RANSAC 库（K. Lebeda、J. Matas 和 O. Chum） [28/12/19 之前]

事件相机数据

ATIS 飞机数据集- ATIS 飞机数据集是基于事件的自由手抛飞机模型。(Afshar, Tapson, van Schaik, Cohen) [27/12/2020]
CED：彩色事件相机数据集- CED 具有 50 分钟的镜头，包含来自 Color-DAVIS346 的彩色帧和彩色事件。（Scheerlinck、Rebecq、Stoffregen、Barnes、Mahony、Scaramuzza、RPG UZH 和 ETH Zurich） [27/12/2020]
组合动态视觉/RGB-D 数据集-“该数据集包含来自 D-eDVS 的三个数据流（颜色、深度、事件）的记录。深度增强的嵌入式动态视觉传感器。以及来自外部的相应地面实况数据跟踪系统。” (Weikersdorfer, Adrian, Cremers, Conradt) [27/12/2020]
DDD17 - DAVIS 驾驶数据集 2017 - “数据集包含来自 DAVIS346 摄像头的记录，主要来自高速公路上的驾驶场景以及地面实况汽车数据，如速度、转向、GPS 等。”（Binas、Neil、Liu、Delbruck，神经信息学研究所, UZH 和 ETH Zurich) [27/12/2020]
DDD20 - 端到端事件相机驾驶数据集- 添加到 DDD17。收集和整理了另外 41 小时的 DAVIS E2E 驾驶数据。（神经信息学研究所，UZH 和 ETH Zurich） [27/12/2020]
DET: A High-resolution DVS Dataset for Lane Extraction - 用于车道提取的高分辨率 DVS 数据集。(Cheng, Luo, Yang, Yu, Chen, Li) [27/12/2020]
DHP19 - DAVIS 人体姿势估计和动作识别- 数据集包含来自 4 个 DAVIS346 相机的同步记录，带有来自 17 个重复运动的对象的 Vicon 标记地面实况。（巴尔格里斯特大学医院，神经信息学研究所，UZH 和 ETH Zurich） [27/12/2020]
驾驶事件相机数据集- 使用 VGA (640x480) 事件相机 (Samsung DVS Gen3) 和传统 RGB 相机 (Huawei P20 Pro) 记录的序列，这些相机放置在行驶在苏黎世的汽车的挡风玻璃上。(Davide Scaramuzza, Henri Rebecq) [23/1/20]
DVS09 - DVS128 动态视觉传感器硅视网膜- 包含示例 DVS 记录的数据集。（Delbruck，神经信息学研究所，UZH 和 ETH Zurich） [27/12/2020]
DVSFLOW16 - DVS/DAVIS 光流数据集- “DVS 光流数据集包含一个场景的样本，包括盒子、移动正弦光栅和一个旋转圆盘。地面实况来自相机的 IMU 速率陀螺仪。” （Rueckauer，Delbruck，神经信息学研究所，UZH 和 ETH Zurich） [27/12/2020]
DVSACT16 - 用于对象跟踪、动作识别和对象识别的 DVS 数据集- 数据集包含来自 DVS 的跟踪数据集记录。(Hu, Liu, Pfeiffer, Delbruck, 神经信息学研究所，UZH 和 ETH Zurich) [27/12/2020]
DVSNOISE20 - 该数据集旨在根据真实传感器数据评估事件去噪算法的性能，并使用 DAVIS346 神经形态相机收集。(Almatrafi, Baldwin, Aizawa, Hirakawa) [27/12/2020]
基于事件的直接相机跟踪数据集- 该数据集由一个或多个事件相机的轨迹（存储为 rosbag）和相应的光度图组成，其形式为真实数据的点云和模拟场景的纹理网格作为地面真相姿势。(Bryner, Gallego, Rebecq, Scaramuzza, RPG UZH 和 ETH Zurich) [27/12/2020]
基于事件的空间态势感知 (EBSSA) 数据集- “EBSSA 数据集是基于事件的驻留空间物体、行星和恒星记录的集合。” （阿夫沙尔、尼科尔森、范沙伊克、科恩） [27/12/2020]
EVIMO - 使用事件相机进行运动分割、自我运动估计和跟踪的数据集；该数据集是使用 DAVIS 346C 收集的，并为相机和独立移动的对象提供 3D 姿势，以及逐像素运动分割掩码。(米特罗欣、叶、费米勒、阿洛蒙诺斯、德尔布鲁克) [14/1/20]
极端事件数据集- 在具有挑战性的条件下（低光照条件和极端光照变化，包括闪烁的频闪灯）具有多个移动物体的事件数据集。（米特罗欣、费米勒、帕拉梅什瓦拉、阿洛莫诺斯） [27/12/2020]
GEN1 汽车检测数据集——“数据集是使用分辨率为 304×240 像素的 PROPHESEE GEN1 传感器记录的，安装在汽车仪表板上，包括行人和汽车的边界框注释。” (de Tournemire, Nitti, Perot, Sironi) [27/12/2020]
高质量帧 (HQF) 数据集- 数据集包含来自 DAVIS240C 的事件和真实帧，这些帧曝光良好且运动模糊程度最低。(Stoffregen, Scheerlinck, Scaramuzza, Drummond, Barnes, Kleeman, Mahony) [27/12/2020]
高速和 HDR 数据集- “这些序列在论文“带有事件摄像机的高速和高动态范围视频”中使用，包括来自事件摄像机的事件和来自 RGB 摄像机的图像。” (Rebecq, Scaramuzza, RPG UZH 和 ETH Zurich) [27/12/2020]
MNIST-DVS 和 FLASH-MNIST-DVS 数据库- 该数据集基于原始的基于帧的 MNIST 数据集，并包含 DVS（动态视觉传感器）的记录。(Yousefzadeh, Serrano-Gotarredona, Linares-Barranco) [27/12/2020]
多车辆立体事件相机数据集- 包含一对立体 DAVIS 346b 事件相机的多个序列，其中包含真实姿势、深度图和光流。(lex Zihao Zhu, Dinesh Thakur, Tolga Ozaslan, Bernd Pfrommer, Vijay Kumar, Kostas Daniilidis) [28/12/19 之前]
N-Caltech101 (Neuromorphic-Caltech101) - 该数据集是原始基于帧的 Caltech101 数据集的尖峰版本。（果园、科恩、查亚旺特、塔克尔） [27/12/2020]
N-Cars - “数据集由 12,336 个汽车样本和 11,693 个非汽车样本（背景）组成，用于由 ATIS 相机记录的分类。” (Sironi, Brambilla, Bourdis, Lagorce, Benosman) [27/12/2020]
N-MNIST (Neuromorphic-MNIST) - 该数据集是原始基于帧的手写数字 MNIST 数据集的尖峰版本。（果园、科恩、查亚旺特、塔克尔） [27/12/2020]
“用于行人检测、动作识别和跌倒检测的神经形态视觉数据集” - “使用 DAVIS346redColor 记录的用于行人检测、动作识别和跌倒检测的神经形态视觉数据集”。(苗、陈、宁、子、任、冰、诺) [27/12/2020]
N-SOD 数据集- “神经形态单对象数据集 (N-SOD)，包含三个对象，其样本的时间长度不同，使用基于事件的传感器记录。” (Ramesh, Ussa, Vedovs, Yang, Orchard) [27/12/2020]
POKER-DVS 数据库- “POKER-DVS 数据库由一组 131 个扑克点子符号组成，这些符号从 3 个独立的 DVS 记录中跟踪和提取，同时非常快速地浏览扑克牌。” (Serrano-Gotarredona, Linares-Barranco) [27/12/2020]
PRED18 - 可视化捕食者/猎物数据集- 数据集包含来自安装在计算机控制机器人（捕食者）上的 DAVIS240 摄像机的记录，该机器人追逐并试图捕捉另一个人类控制的机器人（猎物）。（Moeys，Delbruck，神经信息学研究所，UZH 和 ETH Zurich） [27/12/2020]
RGB-DAVIS 数据集- 数据集包含室内和室外序列，涉及使用 RGB-DAVIS 成像系统收集的相机运动和/或场景运动。(Wang, Duan, Cossairt, Katsaggelos, Huang, Shi) [27/12/2020]
ROSHAMBO17 - RoShamBo Rock Scissors Paper 游戏 DVS 数据集- “数据集是从大约 20 人记录的，每个人显示大约 2m 的岩石、剪刀和纸符号，具有各种姿势、距离、位置、左手/右手。”（Lungu， Corradi, Delbruck，神经信息学研究所，UZH 和 ETH Zurich) [27/12/2020]
SL-ANIMALS-DVS 数据库- SL-ANIMALS-DVS 数据库包含人类执行各种动物手语手势的 DVS 记录，以非常低的延迟作为连续的尖峰流。(Serrano-Gotarredona, Linares-Barranco) [27/12/2020]
SLOW-POKER-DVS 数据库- “SLOW-POKER-DVS 数据库由 4 个独立的 DVS 录音组成，同时在镜头前缓慢移动一个扑克符号大约 3 分钟。” (Serrano-Gotarredona, Linares-Barranco) [27/12/2020]
ViViD : Vision for Visibility Dataset - “该数据集提供了由热、深度和时间差传感器记录的室内和室外轨迹的正常和不良照明序列。” (Lee, Cho, Yoon, Shin, Kim) [27/12/2020]

面部和眼睛/虹膜数据库

2D-3D 人脸数据集- 该数据集包括成对的 2D 人脸图像及其相应的具有几何细节的 3D 人脸几何模型。(郭宇东、张居勇、蔡剑飞、蒋博一、郑建民) [28/12/19前]
300 个野外视频 (300-VW) - 68 个面部标志跟踪（Chrysos、Antonakos、Zafeiriou、Snape、Shen、Kossaifi、Tzimiropoulos、Pantic）[28/12/19 之前]
300W-Style - 300W 的增强版，通过对原始图像应用三种样式更改。它用于促进面部标志检测问题的分析。(宣义东) [29/12/19]
3D 面具攻击数据库 (3DMAD) - 76500 帧 17 人使用 Kinect RGBD 和眼睛位置 (Sebastien Marcel) [28/12/19 之前]
3D 面部表情- 宾汉姆顿大学 3D 静态和动态面部表情数据库（Lijun Yin、Jeff Cohn 和队友） [28/12/19 之前]
3DFE - Binghamton University 3D 静态面部表情数据库（Lijun Yin et al.） [28/12/2020]
4DFE - Binghamton University 3D 动态面部表情数据库（Lijun Yin et al.） [28/12/2020]
AFAD：Asian Face Age Dataset - 提出用于评估年龄估计性能的新数据集，其中包含超过 160K 的面部图像以及相应的年龄和性别标签（Niu、Zhou、Gao、Hua） [27/12/2020]
AFLW 样式- 通过对原始图像应用三种样式更改来增强 AFLW 版本。它用于促进面部标志检测问题的分析。(宣义东) [29/12/19]
AginG Faces in the Wild v2数据库描述：AGFW-v2 包含 36,299 张面部图像，分为 11 个年龄组，组间跨度为 5 年。平均而言，每组有 3,300 张图像。AGFW-v2 中的面部图像不是公众人物，不太可能进行重大化妆或面部修饰，有助于在学习过程中嵌入准确的老化效果。(Chi Nhan Duong, Khoa Luu, Kha Gia Quach, Tien D. Bui) [28/12/19 之前]
用于人脸和说话人识别的视听数据库（Mobile Biometry MOBIO http://www.mobioproject.org/）[28/12/19 之前]
视听 Lombard 网格语音语料库- 双视图视听 Lombard 语音语料库，可用于支持语音感知中的联合计算行为研究（Alghamdi、Maddock、Marxer、Barker 和 Brown）[31/12/19]
BANCA 人脸和语音数据库（萨里大学） [28/12/19 之前]
Binghampton Univ 3D 静态和动态面部表情数据库（Lijun Yin、Peter Gerhardstein 和队友） [28/12/19 之前]
Binghamton-Pittsburgh 4D 自发面部表情数据库- 由 2D 自发面部表情视频和 FACS 代码组成。(Lijun Yin et al.) [28/12/19 之前]
BioID人脸数据库（BioID组） [28/12/19之前]
BioVid 热痛数据库- 该视频（和生物医学信号）数据集包含 87 名遭受实验性热痛的研究参与者的面部和生理心理反应。（马格德堡大学（神经信息技术组）和乌尔姆大学（情感实验室）） [28/12/19前]
生物特征数据库- 虹膜识别相关的生物特征数据库 (Adam Czajka) [28/12/19 之前]
Biwi 3D 情感交流视听语料库- 1000 个高质量的动态 3D 面部扫描，在发音一组英语句子时记录。[28/12/19 之前]
博斯普鲁斯海峡 FACS 注释面部表情、头部姿势和面部遮挡的 3D/2D 数据库（Bogazici 大学）[28/12/19 之前]
BP4D - Binghamton-Pittsburgh 4D 自发面部表情数据库 - 2D 和 3D 自发面部表情视频和 FACS 代码（Lijun Yin 等人） [28/12/2020]
BP4D+ - 2D、3D、热和生理自发面部表情视频、FACS 代码和特征点的多模态自发情绪数据库。(Lijun Yin et al.) [28/12/2020]
BUPT-Balancedface - 一个大规模的人脸数据库，由 120 万张具有均衡种族分布的野外图像组成。此外，还有一个大规模的人脸数据库，由 200 万张野外图像组成，根据世界人口的种族分布。(王、张、邓) [28/12/2020]
CAER (Context-Aware Emotion Recognition) - 用于情绪识别和面部表情识别的大规模图像和视频数据集 (Lee, Kim, Kim, Park, and Sohn) [29/12/19]
CALFW：Cross-age Labeled Faces in-the-Wild - 一个大规模基准数据库，旨在评估不同年龄条件下人脸识别模型的准确性（郑、邓）[28/12/2020]
Caricature/Photomates 数据集- 具有正面和相应漫画线图的数据集 (Tayfun Akgul) [28/12/19 之前]
CASIA-IrisV3 (中国科学院, TN Tan, Z. Sun) [28/12/19前]
CASIR 凝视估计数据库- RGB 和深度图像（来自 Kinect V1.0）以及与凝视估计基准测试相对应的面部特征的地面真值：（Filipe Ferreira 等）[28/12/19 之前]
Celeb-DF - 一个新的大规模且具有挑战性的 DeepFake 视频数据集 Celeb-DF，用于开发和评估 DeepFake 检测算法（Li、Yang、Sun、Qi 和 Lyu） [30/12/19]
CMU 面部表情数据库(CMU/MIT) [28/12/19 之前]
CMU Multi-PIE 人脸数据库- 在五个月的时间里，在多达四个会话中记录了 337 个人的超过 750,000 张图像。（Jeff Cohn 等人）[28/12/19 之前]
CMU 姿势、光照和表情 (PIE) 数据库(Simon Baker) [28/12/19 之前]
CMU/MIT 正面(CMU/MIT) [28/12/19 之前]
CMU/MIT 正面(CMU/MIT) [28/12/19 之前]
CoMA 3D 面部数据集- 从 12 个不同主题（Ranjan、Bolkart、Sanyal、Black）捕获的极端面部表情的 20,466 个网格（FLAME 拓扑中的 3D 头部扫描和注册）[28/12/19 之前]
CPLFW：Cross-pose Labeled Faces in-the-Wild - 一个大型基准数据库，旨在评估可变姿势条件下人脸识别模型的准确性（郑，邓）[28/12/2020]
CSSE 面部正面强度和范围图像（Ajmal Mian） [28/12/19 之前]
CelebA - 大规模 CelebFaces 属性数据集(Ziwei Liu, Ping Luo, Xiaogang Wang, Xiaoou Tang) [28/12/19 之前]
野外正面轮廓中的名人 - 正面和侧面视图中的 500 多张名人图像（Sengupta、Cheng、Castillo、Patel、Chellappa、Jacobs）[28/12/19 之前]
Cohn-Kanade AU 编码表达数据库- 100 多个受试者的 500 多个表达序列，由激活的动作单元编码（匹兹堡大学影响分析组）[28/12/19 之前]
Cohn-Kanade AU-Coded Expression Database - 用于研究自动面部图像分析和合成以及感知研究（Jeff Cohn 等人）[28/12/19 之前]
Columbia Gaze Data Set - 5,880 张 56 个人超过 5 个头部姿势和 21 个注视方向的图像（Brian A. Smith、Qi Yin、Steven K. Feiner、Shree K. Nayar）[28/12/19 之前]
计算机视觉实验室人脸数据库（CVL 人脸数据库） - 数据库包含 114 人的 798 张图像，每人 7 张图像，可免费用于研究目的。(Peter Peer 等) [28/12/19 之前]
DaiSEE: Dataset for Affective States in E-Environments - 一个多标签视频分类数据集，包含从 112 个用户处捕获的 9068 个视频片段，用于识别用户在电子环境（例如电子学习）中的情感状态：无聊、困惑、参与、和“在野外”的挫败感。(Gupta, D'Cunha, Awasthi, Balasubramanian) [27/12/2020]
Deep Future Gaze - 该数据集由 57 个序列组成，由 55 个主题执行的搜索和检索任务组成。每个视频片段持续约 15 分钟，帧速率为 10 fps，帧分辨率为 480 x 640。要求每个对象搜索 22 件物品（包括挂绳、笔记本电脑）并将它们移动到包装位置（餐桌） . （新加坡国立大学信息通信研究院）【28/12/19前】
DISFA+：自发面部动作数据库的扩展丹佛强度- DISFA (MH Mahoor) 的扩展 [28/12/19 之前]
DISFA：自发面部动作数据库的丹佛强度- 一个非姿势面部表情数据库，适用于那些有兴趣开发用于自动动作单元检测的计算机算法及其由 FACS 描述的强度的人。(MH Mahoor) [28/12/19 之前]
DHF1K - 1000 个精心挑选的带有注视注释的视频序列，来自 17 位观众。(沈建兵教授) [28/12/19前]
DiveFace - 训练无偏见和具有歧视意识的人脸识别算法的数据集。它包含在与性别和种族相关的六个类中平均分布的注释。(A. Morales, J. Fierrez, R. Vera-Rodriguez, R. Tolosana) [1/2/21]
EB+ - 扩展的 BP4D+ (Lijun Yin et al.) [28/12/2020]
ELFW: Extended Labeled Faces in-the-Wild - 来自 LFW 数据集的其他人脸相关类别和分割人脸 (Redondo, Gibert) [27/12/2020]
EURECOM 面部化妆品数据库- 389 幅图像，50 位化妆/未化妆的人，关于化妆量和位置的注释。(Jean-Luc DUGELAY 等人) [28/12/19 之前]
EURECOM Kinect 人脸数据库- 52 个人，2 个会话，9 个变体，6 个面部标志。(Jean-Luc DUGELAY 等人) [28/12/19 之前]
EYEDIAP 数据集- EYEDIAP 数据集旨在训练和评估来自 RGB 和 RGB-D 数据的凝视估计算法。它包含各种参与者、头部姿势、凝视目标和传感条件。(Kenneth Funes 和 Jean-Marc Odobez) [28/12/19 之前]
Face2BMI 数据集Face2BMI 数据集包含 2103 对人脸，具有相应的性别、身高以及以前和当前的体重，允许训练计算机视觉模型，这些模型可以从个人资料图片中预测体重指数 (BMI)。(Enes Kocabey, Ferda Ofli, Yusuf Aytar, Javier Marin, Antonio Torralba, Ingmar Weber) [28/12/19 之前]
FDDB: Face Detection Data set and Benchmark——研究无约束人脸检测（马萨诸塞大学计算机视觉实验室）[28/12/19之前]
FDDB-360 - 360 度鱼眼图像中的人脸检测（Fu、Alvar、Bajic 和 Vaughan） [29/12/19]
FERA 数据集- 部分 BP4D-自发面部表情数据库 - 由 2D 自发面部表情视频和 FACS 代码组成（Lijun Yin 等人） [28/12/2020]
FG-Net 不同年龄人脸老化数据库（Face and Gesture Recognition Research Network）【28/12/19前】
Face Recognition Grand Challenge datasets (FRVT - Face Recognition Vendor Test) [28/12/19 之前]
FMTV - Laval 面部运动和延时视频数据库。238 个热成像/视频对象，在 4 年内获得了各种姿势和面部表情（Ghiass、Bendada、Maldague）[28/12/19 之前]
人脸超分辨率数据集- 使用双摄像头设置（Chengchao Qu 等）捕获的地面实况 HR-LR 人脸图像 [28/12/19 之前]
FaceScrub - 包含 530 个人（50:50 男性和女性）的超过 100,000 张面部图像的数据集（H.-W. Ng，S. Winkler）[28/12/19 之前]
FaceTracer 数据库 - 15,000 张面孔（Neeraj Kumar、PN Belhumeur 和 SK Nayar）[28/12/19 之前]
面部表情数据集- 该数据集包含在现实世界条件下记录的 242 个面部视频（168,359 帧）。(Daniel McDuff et al.) [28/12/19 之前]
Florence 2D/3D 混合人脸数据集- 弥合了 2D、基于外观的识别技术和全 3D 方法（Bagdanov、Del Bimbo 和 Masi）之间的差距 [28/12/19 之前]
人脸识别技术（FERET）数据库（美国国家标准与技术研究院）【28/12/19前】
Gi4E 数据库- 眼动追踪数据库，包含 1300 多张使用标准网络摄像头获取的图像，对应于注视屏幕上不同点的不同对象，包括地面实况 2D 虹膜和角点（Villanueva、Ponz、Sesma-Sanchez、Mikel Porta、和 Cabeza) [28/12/19 之前]
谷歌面部表情比较数据集- 一个大规模面部表情数据集，由面部图像三元组和人类注释组成，这些注释指定每个三元组中哪两张脸在面部表情方面形成最相似的一对，这与主要关注的数据集不同离散情绪分类或动作单元检测（Vemulapalli、Agarwala）[28/12/19 之前]
汉娜和她的姐妹们的数据库- 密集的视听人脸、语音片段、镜头边界的地面实况注释（Patrick Perez，Technicolor）[28/12/19 之前]
Headspace 数据集- Headspace 数据集是一组完整的人类头部 3D 图像，由 1519 名佩戴紧身乳胶帽以减少发型影响的对象组成。(Christian Duncan, Rachel Armstrong, Alder Hey Craniofacial Unit, 利物浦, UK) [28/12/19 之前]
香港人脸素描资料库【28/12/19前】
IDIAP 头部姿势数据库 (IHPD) - 该数据集包含一组会议视频以及各个参与者的头部真实情况（大约 128 分钟）（Sileye Ba 和 Jean-Marc Odobez）[28/12/19 之前]
IARPA Janus 基准数据集- IJB-A、IJB-B、IJB-C、FRVT (NIST) [28/12/19 之前]
IMDB-WIKI - 超过 50 万张带有年龄和性别标签的人脸图像（Rasmus Rothe、Radu Timofte、Luc Van Gool）[28/12/19 之前]
印度电影人脸数据库 (IMFDB) - 一个大型无约束人脸数据库，包含从 100 多个视频中收集的 100 位印度演员的 34512 张图像（Vijay Kumar 和 CV Jawahar） [28/12/19 之前]
伊朗人脸数据库- IFDB 是中东第一个图像数据库，包含年龄、姿势和表情的彩色人脸图像，主题范围在 2-85 之间。(Mohammad Mahdi Dehshibi) [28/12/19 之前]
日本女性面部表情 (JAFFE) 数据库(Michael J. Lyons) [28/12/19 之前]
LaPa - 用于人脸解析的大规模数据集 (Liu, Shi, Mei) [27/12/2020]
LIRIS 儿童自发面部表情视频数据库- 12 名儿童在不同环境中的自发/自然面部表情，具有可变视频录制场景，显示六种通用或原型情感表情（快乐、悲伤、愤怒、惊讶、厌恶和恐惧）。孩子们在观看特制/精选刺激物的同时，被记录在无约束环境（不限制头部运动、不限制手部运动、自由坐姿、无任何限制）中。这种无约束的环境使我们能够记录儿童出现时的自发/自然表达。该数据库已经过 22 位人工评估员的验证。(Khan, Crenn, Meyer, Bouakaz) [29/12/19]
LFW：野外标记人脸- 无约束人脸识别 [28/12/19 之前]
LS3D-W - 一个大型 3D 人脸对齐数据集，标注了 68 个点，其中包含在“野外”设置中捕获的人脸。(Adrian Bulat, Georgios Tzimiropoulos) [28/12/19 之前]
MAFA：MAsked 面部- 30,811 张图像，其中 35,806 个标记为 MAsked 面部，每个蒙面人脸的六个主要属性。（葛世明、嘉莉、叶琪婷、赵洛）【28/12/19前】
化妆诱导面部欺骗 (MIFS) - 107 种化妆变换试图欺骗目标身份。还有其他数据集。(Antitza Dancheva) [28/12/19 之前]
MaskedFace-Net - 正确或错误佩戴面具的人脸数据集（137,016 张图像）（Cabani、Hammoudi、Benhabiles、Melkemi）[26/12/2020]
MERL-RAV - 数据集包含 19,000 多张具有各种头部姿势的面部图像。每张脸都用 68 个地标的真实位置手动标记，附加信息包括每个地标是未被遮挡、自遮挡（由于极端的头部姿势）还是外部被遮挡。(Abhinav Kumar, Tim K. Marks, Wenxuan Mou, Ye Wang, Michael Jones, Anoop Cherian, Toshiaki Koike-Akino, Xiaoming Liu and Chen Feng) [1/2/21]
Mexculture142 - 墨西哥文化遗产物品和眼球追踪器注视点（Montoya Obeso、Benois-Pineau、Garcia-Vazquez、Ramirez Acosta）[28/12/19 之前]
MIT CBCL人脸识别数据库（生物与计算学习中心）【28/12/19前】
MIT 人脸数据库整理(Ethan Meyers) [28/12/19 之前]
MIT 眼动追踪数据库（1003 张图像）（Judd 等人）[28/12/19 之前]
MMI 面部表情数据库- 2900 个视频和 75 个主题的高分辨率静态图像，为 FACS AU 注释。[28/12/19 之前]
MORPH (Craniofacial Longitudinal Morphological Face Database) (北卡罗来纳大学威尔明顿分校) [28/12/19 之前]
MPIIGaze 数据集- 213,659 个样本，包含不同光照条件和自然头部运动下的眼睛图像和凝视目标，从 15 名参与者在日常使用中使用笔记本电脑收集。（张旭聪、菅野雄介、马里奥·弗里茨、安德烈亚斯·布林。）【28/12/19前】
Manchester Annotated Talking Face Video Dataset (Timothy Cootes) [28/12/19 之前]
MegaFace - 边界框中的 100 万张面孔（Kemelmacher-Shlizerman、Seitz、Nech、Miller、Brossard）[28/12/19 之前]
音乐视频数据集- 来自 YouTube 的 8 个音乐视频，用于在无约束环境中开发多面跟踪算法（Shun Zhang、Jia-Bin Huang、Ming-Hsuan Yang）[28/12/19 之前]
NIST 人脸识别大挑战 (FRGC) (NIST) [28/12/19 之前]
NIST 面部照片识别数据库（美国国家标准与技术研究所）[28/12/19 之前]
NRC-IIT 面部视频数据库- 该数据库包含成对的短视频剪辑，每个剪辑都显示坐在显示器前的计算机用户的脸，表现出各种面部表情和方向 (Dmitry Gorodnicy) [28/12/19 之前]
Notre Dame Iris Image Dataset (Patrick J. Flynn) [28/12/19 之前]
Notre Dame 人脸、IR 人脸、3D 人脸、表情、人群和眼睛生物特征数据集（Notre Dame） [28/12/19 之前]
ORL人脸库：40人10次浏览（ATT剑桥实验室）【28/12/19之前】
OUI-Adience Faces - 未过滤的性别和年龄分类面孔加上 3D 面孔 (OUI) [28/12/19 之前]
牛津：人脸、花卉、多视图、建筑物、对象类别、运动分割、仿射协变区域、杂项（牛津视觉几何组）[28/12/19 之前]
Pandora - POSEidon：Face-from-Depth for Driver Pose (Borghi, Venturelli, Vezzani, Cucchiara) [28/12/19 之前]
PubFig：公众人物人脸数据库（Neeraj Kumar、Alexander C. Berg、Peter N. Belhumeur 和 Shree K. Nayar）[28/12/19 之前]
QMUL-SurvFace - 专门用于现实世界监控人脸分析和匹配的大规模人脸识别基准。（QMUL计算机视觉组）【28/12/19前】
RAF-DB: Real-world Affective Faces Database - 一个大规模的面部表情数据库，由 30K 的野外面部图像组成，带有准确估计的表情标签 (Li, Deng) [28/12/2020]
RAF-ML: Real-world Affective Faces Multi-Label - 一个由 5K 野外面部图像组成的大规模面部表情数据库，其中包含准确估计的混合表情标签 (Li, Deng) [28/12/2020]
在野外重新标记人脸- 原始图像，但使用“深漏斗”方法对齐。（马萨诸塞大学阿默斯特分校）【28/12/19 之前】
RFW: Racial Face in-the-Wild - 一个大规模的基准数据库，旨在评估无约束条件下人脸识别模型的公平性 (Wang, Zhang, Deng) [28/12/2020]
RT-GENE：自然环境中的实时眼睛注视估计122,531 幅图像，在自由观看条件和较大的相机-主体距离下，带有受试者的地面真实眼睛注视和头部姿势标签（Fischer、Chang、Demiris、伦敦帝国理工学院）[ 28/12/19 之前]
S3DFM - 爱丁堡语音驱动的 3D 面部运动数据库。77 个人重复说出密码短语 10 次：1 秒 500 帧/秒 600x600 像素的 {IR 强度视频，注册深度图像}加上同步的 44.1 Khz 音频。另有26人（10次）边说话边摇头（张、费雪）[28/12/19前]
人类视觉输入的注视对齐记录中的显着特征- “野外”人类注视条件数据的 TB（弗兰克舒曼等）[28/12/19 之前]
SAMM 微面部运动数据集 - 该数据集包含从 13 个不同种族的 32 名参与者获得的 159 个自发微面部运动。(A.Davison, C.Lansley, N.Costen, K.Tan, MHYap) [28/12/19 之前]
SLLFW：Similar-looking Labeled Faces in-the-Wild - 一个大型基准数据库，旨在评估人脸识别模型在识别相似人脸方面的准确性（张，邓）[28/12/2020]
SCface - 监控摄像头人脸数据库 (Mislav Grgic, Kresimir Delac, Sonja Grgic, Bozidar Klimpak) [28/12/19 之前]
SiblingsDB - SiblingsDB 包含两个数据集，描绘了通过兄弟关系相关的个人图像。(Politecnico di Torino/Computer Graphics & Vision Group) [28/12/19 之前]
SoF 数据集- 42,592 张不同光照条件下戴眼镜的人脸图像；提供面部区域、面部标志、面部表情、对象 ID、性别和年龄信息 (Afifi, Abdelhamed) [29/12/19]
使用迭代方法解决机器人世界手眼校准问题- 这些数据集是为校准机器人相机系统而生成的。(Amy Tabb) [28/12/19 之前]
自发情绪多模态数据库 (SEM-db) - 对用 HD RGB、面部深度和 IR 帧、EEG 信号和眼睛注视数据记录的视觉刺激数据的非姿势反应（Fernandez. Montenegro、Gkelias、Argyriou）[28 岁之前/ 12/19]
UNBC-McMaster 肩痛表达存档数据库- 痛苦的数据：UNBC-McMaster 肩痛表达存档数据库（Lucy 等人）[28/12/19 之前]
VOCASET - 4D 人脸数据集，大约 29 分钟的 3D 头部扫描以 60 fps 的速度捕获，同步音频来自 12 个扬声器（Cudeiro、Bolkart、Laidlaw、Ranjan、Black）[28/12/19 之前]
Trondheim Kinect RGB-D 人重识别数据集(Igor Barros Barbosa) [28/12/19 之前]
UB KinFace 数据库-布法罗大学亲属关系验证和识别数据库 [28/12/19 之前]
UBIRIS: Noisy Visible Wavelength Iris Image Databases (University of Beira) [28/12/19 之前]
UMDFaces - 来自 22,000 个视频和 370,000 个带注释的静止图像的大约 370 万个带注释的视频帧。(Ankan Bansal et al.) [28/12/19 之前]
UPNA 头部姿势数据库- 头部姿势数据库，包含 120 个网络摄像头视频，其中包含引导运动序列和自由运动序列，包括真实头部姿势和自动注释的 2D 面部点。(Ariz, Bengoechea, Villanueva, Cabeza) [28/12/19前]
UPNA 合成头部姿势数据库- UPNA 头部姿势数据库的合成副本，包含 120 个视频及其 2D 地面实况地标投影、相应的头部姿势地面实况、3D 头部模型和相机参数。(Larumbe, Segura, Ariz, Bengoechea, Villanueva, Cabeza) [28/12/19前]
UTIRIS 交叉光谱虹膜图像数据库(Mahdi Hosseini) [28/12/19 之前]
UvA-NEMO 微笑数据库- 来自 400 个主题的 1240 个微笑视频（597 个自发和 643 个摆姿势），包括年龄、性别和亲属关系注释（Gevers、Dibeklioglu、Salah）[28/12/19 之前]
VGGFace2 - VGGFace2 是一个大规模的人脸识别数据集，涵盖姿势、年龄、光照、种族和职业的巨大变化。（牛津视觉几何组）【28/12/19前】
VIPSL 数据库- VIPSL 数据库用于人脸素描-照片合成和识别的研究，包括 200 个主题（每个主题 1 张照片和 5 个草图）。（王楠楠）【28/12/19前】
视觉搜索零镜头数据库- 在三个日益复杂的视觉搜索任务中收集人类眼球追踪数据：对象数组、自然图像和 Waldo 图像。(Kreiman 实验室) [28/12/19 之前]
VT-KFER：用于自发和非自发面部表情识别的基于 Kinect 的 RGBD+时间数据集 - 32 个对象，1,956 个 RGBD 序列，3 个姿势中的 6 个面部表情（Aly、Trubanova、Abbott、White 和 Youssef）[之前28/12/19]
华盛顿面部表情数据库 (FERG-DB) - 一个包含 6 个程式化 (Maya) 角色和 7 个带注释的面部表情的数据库（Deepali Aneja、Alex Colburn、Gary Faigin、Linda Shapiro 和 Barbara Mones）[28/12/19 之前]
WebCaricature 数据集- WebCaricature 数据集是一个大型照片漫画数据集，由 6042 幅漫画和 5974 张照片组成，这些照片来自从网络上收集的 252 个人。(霍静, 李文斌, 石应欢, 高阳, 尹虎军) [28/12/19前]
更广泛的人脸：人脸检测基准- 32,203 张图像，393,703 张标记人脸，61 个事件类（Shuo Yang、Ping Luo、Chen Change Loy、Xiaoou Tang）[28/12/19 之前]
Wider-360 - 用于鱼眼图像中人脸和物体检测的数据集（Fu、Bajic 和 Vaughan） [29/12/19]
XM2VTS人脸视频序列（295）：扩展的M2VTS数据库（XM2VTS）-（萨里大学）[28/12/19之前]
耶鲁人脸数据库 - 10 个人的 11 种表情(A. Georghaides) [28/12/19 之前]
耶鲁人脸数据库 B - 10 人的 576 观看条件（A. Georghaides） [28/12/19 之前]
York 3D Ear Dataset - York 3D Ear Dataset 是一组 500 张 3D 耳朵图像，由详细的 2D 地标合成，可用于 Matlab 格式 (.mat) 和 PLY 格式 (.ply)。(Nick Pears, Hang Dai, Will Smith, 约克大学) [28/12/19前]
York Univ Eye Tracking Dataset (120张图片) (Neil Bruce) [28/12/19之前]
YouTube 人脸数据库- 支持人脸验证和开放/封闭集识别（Yoanna Martinez-Diaz、Heydi Mendez-Vazquez、Leyanis Lopez-Avila、Leonardo Chang、L. Enrique Sucar、Massimo Tistarelli）[1/2/21]
YouTube Faces DB - 1,595 个不同人的 3,425 个视频。(Wolf、Hassner、Maoz) [28/12/19 之前]
Zurich Natural Image - 在一系列眼动追踪研究中用于创建自然刺激的图像材料（Frey 等人）[28/12/19 之前]

指纹

FVC指纹验证大赛2002数据集（博洛尼亚大学） [28/12/19之前]
FVC指纹验证大赛2004数据集（博洛尼亚大学） [28/12/19之前]
指纹手动细节标记 (FM3) 数据库： - 指纹手动细节标记 (FM3) 数据库（Mehmet Kayaoglu、Berkay Topcu 和 Umut Uludag）[28/12/19 之前]
L3-SF - Level 3 Synthetic Fingerprint Generation - L3 合成指纹图像的公共数据库，包含 148 个身份的五个子集，每个身份有 10 个样本，总共 7400 个指纹图像，包括 740 个图像的汗孔注释，以协助毛孔检测研究。(Andre Brasil Vieira Wyzykowski and Mauricio Pamplona Segundo and Rubisley de Paula Lemes) [1/2/21]
NIST指纹数据库（美国国家标准与技术研究所）[28/12/19之前]
SPD2010指纹单点检测大赛（SPD 2010组委会） [28/12/19前]

一般图像

用于真实低光图像降噪的数据集- 它包含像素和强度对齐的图像对，这些图像被低光相机噪声及其低噪声对应物损坏。(J. Anaya, A. Barbu) [28/12/19 之前]
与文森特梵高相关的绘画数据库- 这是为论文“从印象派到表现主义：自动识别梵高的绘画”（Guilherme Folego 和 Otavio Gomes 和 Anderson Rocha）构建的数据集 VGDB-2016 [Before 28/12/19 ]
AeroRIT - 高光谱语义分割数据集（Rangnekar、Mokashi、Ientilucci、Kanan、Hoffman） [26/12/2020]
AMOS: 许多户外场景档案 (20+m) (Nathan Jacobs) [28/12/19 之前]
航拍图像使用不变颜色特征和阴影信息从航拍图像构建检测。(Beril Sirmacek) [28/12/19 之前]
近似重叠误差数据集具有稀疏地面实况匹配集的图像对，用于评估局部图像描述符 (Fabio Bellavia) [28/12/19 之前]
AutoDA (Automatic Dataset Augmentation) - 一个自动构建的图像数据集，包括 1250 万张图像以及 ILSVRC2012 (Bai, Yang, Ma, Zhao) 1000 个类别的相关文本信息 [28/12/19 之前]
BGU 自然场景高光谱图像数据库（Ohad Ben-Shahar 和 Boaz Arad） [28/12/19 之前]
布朗大学大型二进制图像数据库(Ben Kimia) [28/12/19 之前]
Butterfly-200 - Butterfly-20 是用于细粒度图像分类的图像数据集，包含 25,279 张图像，涵盖 200 种、116 属、23 亚科和 5 科的四个级别类别。（陈天水）【28/12/19前】
具有不同白平衡设置的 CIFAR-10 类- 15,098 幅渲染图像，反映了真实的相机内白平衡设置（Afifi、棕色）[29/12/19]
CIFAR-100 - 100 个类，每个类包含 600 张图像，也分为 20 个超类 (Alex Krizhevsky) [1/6/20]
CMP Facade Database - 包括来自不同地方的 606 幅修正的外墙图像，并标注了 12 个建筑类。(Radim Tylecek) [28/12/19 之前]
Caltech-UCSD Birds-200-2011 (Catherine Wah) [28/12/19 之前]
颜色校正数据集- 基于单应性的注册图像，用于评估图像拼接的颜色校正算法。(法比奥·贝拉维亚) [28/12/19 之前]
哥伦比亚多光谱图像数据库（F. Yasuma、T. Mitsunaga、D. Iso 和 SK Nayar）[28/12/19 之前]
DAQUAR（视觉图灵挑战） - 包含有关真实世界室内场景的问题和答案的数据集。(Mateusz Malinowski, Mario Fritz) [28/12/19 之前]
达姆施塔特噪声数据集- 50 对真实噪声图像和相应的地面实况图像（RAW 和 sRGB）（Tobias Plotz 和 Stefan Roth）[28/12/19 之前]
2010-2014年美国电影预告片数据集- 包含 474 部好莱坞电影预告片的链接以及相关元数据（类型、预算、运行时间、发布、MPAA 评级、发布的屏幕、续集指标）（南加州大学信号分析和解释实验室）[28 年前/ 12/19]
DAVANet: Stereo Deblurring with View Aggregation - 用于动态场景（室内和室外）立体去模糊的大规模多场景数据集。它包含来自 135 个不同视频剪辑 (480 fps) 的 20,637 个模糊清晰的立体图像。(周、张、左、谢、潘、任) [27/12/2020]
DIML Multimodal Benchmark - 评估光度和几何变化下的匹配性能，100 张 1200 x 800 尺寸的图像。(延世大学) [28/12/19之前]
DSLR 照片增强数据集 (DPED) - 由三部智能手机和一部 DSLR 相机在野外同步拍摄的 22K 照片，可用于比较从多个低质量图像（Ignatov、Kobyshev、Timofte、Vanhoey 和 Van Gool）推断出的高质量图像。[28/12/19 之前]
Flickr 风格- 80K Flickr 照片用 20 个精选风格标签注释，85K 绘画用 25 个风格/流派标签注释（谢尔盖卡拉耶夫）[28/12/19 之前]
Flickr1024: A Dataset for Stereo Image Super-resolution - 1024 个高质量图像对，涵盖不同场景 (Wang, Wang, Yang, An, Guo) [28/12/19 之前]
Forth Multispectral Imaging Datasets - 来自 23 个光谱波段的图像，每个波段来自 5 幅画。图像使用地面实况数据进行注释。(Karamaoynas Polykarpos et al) [28/12/19 之前]
General 100 Dataset - General-100 数据集包含 100 张 bmp 格式的图像（无压缩），非常适合超分辨率训练（Dong、Chao 和 Loy、Chen Change 和 Tang、Xiaoou）[28/12/ 之前/ 19]
GOPRO 数据集- 具有清晰图像地面实况的模糊图像数据集（Nah、Kim 和 Lee）[28/12/19 之前]
HIPR2 不同类型图像的图像目录（Bob Fisher 等人）[28/12/19 之前]
HPatches - 手工和学习本地描述符的基准和评估（Balntas、Lenc、Vedaldi、Mikolajczyk）[28/12/19 之前]
用于自然场景中局部照明空间分布的高光谱图像-自然场景的30 个校准高光谱辐射图像，其中嵌入了用于局部照明估计的探测球。(Nascimento, Amano & Foster) [28/12/19 之前]
自然场景的高光谱图像 - 2002 (David H. Foster) [28/12/19 之前]
自然场景的高光谱图像 - 2004 (David H. Foster) [28/12/19 之前]
ISPRS 多平台摄影测量数据集- 1：天底和倾斜航拍图像加 2：组合无人机和地面图像（Francesco Nex 和 Markus Gerke）[28/12/19 之前]
LIVE 的图像和视频质量评估- 用于开发图像质量算法（德克萨斯大学奥斯汀分校）[28/12/19 之前]
ImageNet 大规模视觉识别挑战- 目前 200 个对象类和 500+K 个图像（Alex Berg、Jia Deng、Fei-Fei Li 等）[28/12/19 之前]
ImageNet 语言组织 (WordNet) 分层图像数据库 - 10E7 张图像，15K 类别（李飞飞、邓佳、郝苏、李凯）[28/12/19 之前]
改进的 3D 稀疏映射用于低成本全向机器人运动的高性能结构 - 评估数据集- 研究论文中使用的数据集 doi:10.1109/ICIP.2015.7351744（Breckon、Toby P.、Cavestany、Pedro）[28/12 之前/19]
Konstanz 视觉质量数据库- 用于开发和评估视觉质量评估算法的大规模图像和视频数据库。（MMSP组，康斯坦茨大学） [28/12/19之前]
柯达麦克马斯特去马赛克数据集- (Zhang, Wu, Buades, Li) [28/12/19 之前]
LabelMeFacade 数据库- 945 个带标签的建筑图像（Erik Rodner 等人）[28/12/19 之前]
局部照明高光谱辐射图像- 用于局部照明估计的嵌入探测球的自然场景的三十张高光谱辐射图像（Sgio MC Nascimento、Kinjiro Amano、David H. Foster）[28/12/19 之前]
McGill 校准彩色图像数据库（Adriana Olmos 和 Fred Kingdom）[28/12/19 之前]
Multiply Distorted Image Database - 用于评估多重失真图像的图像质量评估指标结果的数据库。(周飞) [28/12/19前]
NAS-Bench-201 - 一个与算法无关的 nas 基准测试，包含三个数据集上 15,625 个架构的详细信息（训练/验证/测试损失/准确性等）（Xuanyi Dong）[28/12/2020]
NATS-Bench - 在 CIFAR-10/100 和 ImageNet-16-120 上包含 15,625 个用于架构拓扑的候选神经细胞和 32,768 个用于架构大小的信息的架构数据集。(宣义东) [30/12/2020]
NPRgeneral - 用于评估图像风格化算法的标准化图像集合。(David Mold, Paul Rosin) [28/12/19 之前]
nuTonomy 场景数据集（nuScenes） - nuScenes 数据集是一个大规模的自动驾驶数据集。它具有：完整的传感器套件（1x LIDAR、5x RADAR、6x 摄像头、IMU、GPS）、1000 个每个 20 秒的场景、1,440,000 个摄像头图像、400,000 次激光雷达扫描、两个不同的城市：波士顿和新加坡、左右手交通、详细地图信息、25 个对象类的手动注释、以 2Hz 注释的 1.1M 3D 边界框、可见性、活动和姿势等属性。(Caesar et al) [28/12/19 之前]
纽约大学对称数据库- 176 个单对称和 63 个多对称图像（Marcelo Cicconet 和 Davi Geiger）[28/12/19 之前]
OceanDark 数据集- 来自东北太平洋水下地点的 100 张低光照水下图像。1400x1000 像素，不同的照明和录制条件（Ocean Networks Canada）[28/12/19 之前]
OTCBVS 热成像基准数据集集（俄亥俄州队） [28/12/19 之前]
全景稀疏结构区域数据集- 用于评估图像对齐的 PASSTA 数据集 (Andreas Robinson) [28/12/19 之前]
摄影缺陷数据集- 来自 Flickr 的 12,853 张照片，其中包含 3 个缺陷严重程度注释级别之一：严重、轻度、无（Yu、Shen、Lin、Mah、Barnes）[27/12/2020]
QMUL-OpenLogo - 一个标志检测基准，用于测试在自然场景中检测各种标志对象的模型泛化能力，其中大多数标志类未标记。（QMUL计算机视觉组）【28/12/19前】
RESIDE (Realistic Single Image DEhazing) - 目前最大规模的基准测试，包括合成和真实世界的朦胧图像，用于图像去雾研究。RESIDE 突出了多样化的数据源和图像内容，并服务于各种培训或评估目的。（李博义、任文启、傅登攀、陶大成、丹峰、曾文君、王张阳）【28/12/19前】
2014年国立博物馆挑战赛- 它由来自国立博物馆的 10 万件艺术品组成，并带有描述每个物品的大量 xml 文件。(Thomas Mensink 和 Jan van Gemert) [28/12/19 之前]
See in the Dark - 77 Gb 的黑暗图像（Chen、Chen、Xu 和 Koltun）[28/12/19 之前]
智能手机图像去噪数据集 (SIDD) - 智能手机图像去噪数据集 (SIDD) 由大约 30,000 张噪声图像组成，这些图像在原始 RGB 和 sRGB 空间中具有相应的高质量地面实况，使用五个具有代表性的智能手机相机从具有不同照明条件的 10 个场景中获得. (Abdelrahman Abdelhamed, Stephen Lin, Michael S. Brown) [28/12/19 之前]
渲染的 WB 数据集- 100,000 多个渲染的 sRGB 图像，具有不同的白平衡 (WB) 设置（Afifi、Price、Cohen、Brown）[29/12/19]
斯坦福街景图像、姿势和 3D 城市数据集- 街景图像的大规模数据集（2500 万张图像和 118 个匹配图像对）及其相对相机姿势、城市的 3D 模型和图像的 3D 元数据。(Zamir, Wekel, Agrawal, Malik, Savarese) [28/12/19 之前]
Sushi-50 - 包含 50 个细粒度寿司类别的数据集（Jianing Qiu 等人） [28/12/2020]
TESTIMAGES - 大量免费的样本图像集合，用于分析和评估不同类型的显示器（即显示器、电视和数字电影放映机）和图像处理技术。(Nicola Asuni) [28/12/19 之前]
自然场景的延时高光谱辐射图像- 一天内拍摄的自然场景的 7-9 个校准高光谱辐射图像的四个延时序列。(Foster, DH, Amano, K., & Nascimento, SMC) [28/12/19 之前]
延时高光谱辐射图像- 自然场景的 7-9 张校准高光谱图像的四个延时序列，光谱间隔为 10 纳米（David H. Foster、Kinjiro Amano、Sgio MC Nascimento）[28/12/19 之前]
Tiny Images Dataset 7900 万张 32x32 彩色图像（Fergus、Torralba、Freeman） [28/12/19 之前]
TURBID 数据集- 退化图像的五个不同子集及其各自的真实情况。子集 Milk 和 DeepBlue 各有 20 张图像，子集 Chlorophyll 有 42 张图像 (Amanda Duarte) [28/12/19 之前]
Underwater Image Enhancement Benchmark Dataset and Beyond - 一个水下图像增强基准 (UIEB)，包括 950 张真实世界的水下图像，其中 890 张具有相应的参考图像（Li、Guo、Ren、Cong、Hou、Kwong、Tao）[27/ 12/2020]
UT Snap Angle 360˚ 数据集- 来自 youtube（Kristen Grauman，UT Austin）的四项活动（迪士尼、游行、滑雪、音乐会）的 360˚ 视频列表 [28/12/19 之前]
UT Snap Point Dataset - 人类对来自 UT Egocentric 数据集和新收集的移动机器人数据集的帧子集的快照点质量的判断（还包括帧）（Bo Xiong、Kristen Grauman、UT Austin）[28/12/19 之前]
UVA 内在图像和语义分割数据集- 具有真实反照率、阴影和语义注释的 RGB 数据集（TrimBot2020 联盟） [26/2/20]
Visual Dialog - 在 COCO 图像上进行 120k 人机对话，每个对话 10 轮 QA（Das、Kottur、Gupta、Singh、Yadav、Moura、Parikh、Batra）[28/12/19 之前]
视觉问答- 254K 图像、764K 问题、基本事实（Agrawal、Lu、Antol、Mitchell、Zitnick、Batra、Parikh）[28/12/19 之前]
视觉问题生成- 15k 个图像（包括以对象为中心和以事件为中心的图像），75k 个关于图像的自然问题可以引发进一步的对话（Nasrin Mostafazadeh、Ishan Misra、Jacob Devlin、Margaret Mitchell、Xiao dong He、Lucy Vanderwende ) [28/12/19 之前]
VQA 人类注意力- 用于视觉问答的 60k 人类注意力图，即人类选择在哪里寻找回答有关图像的问题（Das、Agrawal、Zitnick、Parikh、Batra）[28/12/19 之前]
Wild Web 篡改图像数据集- 来自 Web 和社交媒体来源的大量篡改图像集合，包括用于篡改定位的真实标注掩码（Markos Zampoglou、Symeon Papadopoulos）[28/12/19 之前]
YFCC100M：多媒体研究中的新数据- 这个包含 1 亿张照片和视频的公开精选数据集对所有人免费且合法。（Bart Thomee、Yahoo Labs 和旧金山的 Flickr 等） [28/12/19 之前]

一般 RGBD、3D 点云和深度数据集

注意：其他地方也有 3D 数据集，例如在 Objects、Scenes和Actions 中。

另请参阅：RGBD 数据集列表。

3D60：3D Vision Indoor Spherical Panoramas - 360 个球面全景图的多模态数据集，包含成对的彩色图像、深度和法线贴图，以及垂直和水平立体对（以及它们的分类深度和法线贴图），可用于训练或评估各种 3D 视觉任务。(Nikolaos Zioulis, Antonis Karakottas, Dimitrios Zarpalas, Petros Daras) [28/12/19 之前]
3D 打印 RGB-D 对象数据集- 5 个具有真实 CAD 模型和相机轨迹的对象，使用各种质量的 RGB-D 传感器记录。(Siemens & TUM) [28/12/19 之前]
3DCOMET - 3DCOMET 是用于测试 3D 数据压缩方法的数据集。(Miguel Cazorla, Javier Navarrete, Vicente Morell, Miguel Cazorla, Diego Viejo, Jose Garcia-Rodriguez, Sergio Orts。) [28/12/19 之前]
3D 关节体- 具有旋转和平移的关节体的 3D 重建。单摄像头，不同焦距。每个场景都可能有一个关节式身体在运动。包括四种数据集。包含的样本重建结果仅使用场景的四幅图像。(朴继勋教授) [28/12/19前]
A Dataset for Non-Rigid Reconstruction from RGB-D Data - 八个场景，用于从 RGB-D 数据重建非刚性几何，每个场景包含数百帧以及我们的结果。(Matthias Innmann, Michael Zollhoefer, Matthias Niessner, Christian Theobalt, Marc Stamminger) [28/12/19 之前]
对象扫描的大型数据集- 9 个案例中的 392 个对象，每个对象数百帧（Choi、Zhou、Miller、Koltun）[28/12/19 之前]
铰接物体挑战- 4 个铰接物体由由 1D 旋转和棱柱关节连接的刚性部件组成，7000 多张带有用于 6D 姿态估计注释的 RGBD 图像（Frank Michel、Alexander Krull、Eric Brachmann、Michael. Y. Yang、Stefan Gumhold、Carsten Rother ) [28/12/19 之前]
BigBIRD - 每个对象有 100 个对象，600 个 3D 点云和 600 个高分辨率彩色图像，涵盖所有视图（Singh、Sha、Narayan、Achim、Abbeel）[28/12/19 之前]
CAESAR Civilian American and European Surface Anthropometry Resource Project - 4000 3D 人体扫描 (SAE International) [28/12/19 之前]
CIN 2D+3D 对象分类数据集- 来自 18 类常见家庭和办公对象的对象的分割颜色和深度图像（Bjorn Browatzki 等）[28/12/19 之前]
CoRBS - RGB-D SLAM 基准，提供真实深度和颜色数据的组合以及相机的地面实况轨迹和场景的地面实况 3D 模型 (Oliver Wasenmuller) [28/12/19 之前]
CSIRO 合成变形人- 用于评估非刚性 3D 重建的合成 RGBD 数据集：2 个主体和 4 个相机轨迹（Elanattil 和 Moghadam） [28/12/19 之前]
CTU 服装折叠照片数据集- 服装折叠各个阶段的颜色和深度图像。(Sushkov R., Melkumov I., Smutn y V. (布拉格捷克技术大学)) [28/12/19 之前]
CTU Garment Sorting Dataset - 服装图像、详细立体图像、深度图像和权重的数据集。(Petrik V., Wagner L. (布拉格捷克技术大学)) [28/12/19 之前]
服装零件数据集- 服装零件数据集包括使用 Kinect 获取的放在桌子上的服装的图像和深度扫描，以及使用多边形遮罩的超过一千个零件注释（领口、袖口、兜帽等）。(Arnau Ramisa、Guillem Aleny、Francesc Moreno-Noguer 和 Carme Torras) [28/12/19 之前]
Cornell-RGBD-Dataset - 办公场景 (Hema Koppula) [28/12/19 之前]
CVSSP 动态 RGBD 建模 2015 - 该数据集包含使用 Kinect V1/V2 捕获的一般动态场景的八个 RGBD 序列以及两个合成序列。(Charles Malleson, CVSSP, 萨里大学) [28/12/19 之前]
可变形 3D 重建数据集- 动态移动机械玩具的两个单流 RGB-D 序列以及标准静止姿势中的真实 3D 模型。(Siemens, TUM) [28/12/19 之前]
代尔夫特风车内部和外部激光扫描点云(Beril Sirmacek) [28/12/19 之前]
Diabetes60 - 自制的 60 种西式菜肴的 RGB-D 图像。使用 Microsoft Kinect V2 记录数据。(Patrick Christ 和 Sebastian Schlecht) [28/12/19 之前]
ETH3D - 多视图立体和 3D 重建基准，涵盖各种室内和室外场景，由高精度激光扫描仪获取地面实况。(Thomas Sch??ps, Johannes L. Sch??nberger, Silvano Galliani, Torsten Sattler, Konrad Schindler, Marc Pollefeys, Andreas Geiger) [28/12/19 之前]
EURECOM Kinect 人脸数据库- 52 个人，2 个会话，9 个变体，6 个面部标志。(Jean-Luc DUGELAY 等人) [28/12/19 之前]
G4S 元房间- RGB-D 数据 150 次扫描，每次扫描 18 个图像。（John Folkesson 等人）[28/12/19 之前]
Georgiatech-Metz Symphony Lake 数据集- 4 年内来自 121 次湖岸调查的 500 万张 RGBD 户外图像。(Griffith and Pradalier) [28/12/19 之前]
Goldfinch: GOogLe image-search Dataset for Fine-grained Challenges -细粒度鸟类（11K 种）、蝴蝶（14K 种）、飞机（409 种）和狗（515 种）识别的大规模数据集。(乔纳森·克劳斯、本杰明·萨普、安德鲁·霍华德、霍华德·周、亚历山大·托舍夫、汤姆·杜里格、詹姆斯·菲尔宾、李飞飞) [28/12/19前]
Headspace 数据集- Headspace 数据集是一组完整的人类头部 3D 图像，由 1519 名佩戴紧身乳胶帽以减少发型影响的对象组成。(Christian Duncan, Rachel Armstrong, Alder Hey Craniofacial Unit, 利物浦, UK) [28/12/19 之前]
House3D - House3D 是一个虚拟 3D 环境，由数千个室内场景组成，配备了来自 SUNCG 数据集的各种场景类型、布局和对象。它由超过 45,000 个室内 3D 场景组成，从工作室到带游泳池和健身房的两层楼房屋。所有 3D 对象都使用类别标签进行了完整注释。环境中的代理可以访问多种模式的观察结果，包括 RGB 图像、深度、分割掩码和自上而下的 2D 地图视图。渲染器以每秒数千帧的速度运行，使其适用于大规模 RL 训练。(Yu Wu, Yuxin Wu, Georgia Gkioxari, Yuandong Tian, facebook 研究) [28/12/19 之前]
IMPART multi-view/multi-modal 2D+3D电影制作数据集-LIDAR、视频、3D模型、球形相机、RGBD、立体、动作、面部表情等（萨里大学）[28/12/19之前]
工业 3D 对象检测数据集 (MVTec ITODD) - 3500 个标记场景中 28 个对象的深度和灰度值数据，用于 3D 对象检测和姿态估计，重点关注工业设置和应用（MVTec Software GmbH，慕尼黑）[28/12 之前/19]
JHU CoSTAR Block Stacking Dataset - 机器人通过实时 RGBD 数据与 5.1 cm 彩色块动态交互以完成订单履行风格的块堆叠任务，在深度学习、神经网络、强化学习中应用超过 12k 次堆叠尝试和 2m 帧，和更多。(亨特、耆那教、林、帕克斯顿、海格) [27/12/2020]
Kinect v2 数据集- 使用核密度估计（Felix 等）的高效多频相位展开 [28/12/19 之前]
KOMATSUNA 数据集- 该数据集设计用于使用顺序多视图 RGB 图像和深度图像对叶子进行实例分割、跟踪和重建。(九州大学内山英明) [28/12/19之前]
Make3D 激光+图像数据- 约 1000 张 RGB 室外图像，带有对齐的激光深度图像（Saxena、Chung、Ng、Sun）[28/12/19 之前]
McGill-Reparti 人工感知数据库- 来自四个摄像头的 RGBD 数据和两个在车门上执行模拟装配任务的人类受试者的未经过滤的 Vicon 骨骼数据（Andrew Phan、Olivier St-Martin Cormier、Denis Ouellet、Frank P. Ferrie）。[28/12/19 之前]
元房间- RGB-D 数据由 28 个对齐的深度相机图像组成，这些图像是通过让机器人前往特定位置并以各种倾斜度进行 360 度平移而收集的。（John Folkesson 等人）[28/12/19 之前]
METU 多模态立体数据集 ???多模态立体视觉的基准数据集??? - METU 多模态立体数据集包括用于多模态立体视觉的基准数据集，它由两个数据集组成：（1）来自 Middlebury 立体评估数据集的合成改变的立体图像对和（2）可见红外图像从 Kinect 设备捕获的配对。(Dr. Mustafa Yaman, Dr. Sinan Kalkan) 【28/12/19前】
MHT RGB-D - 由林肯大学在 16 天内每 5 分钟收集一次。（John Folkesson 等人）[28/12/19 之前]
RGB-D 中的移动婴儿 (MINI-RGBD) - 用于婴儿姿势估计的合成、逼真的 RGB-D 数据集，包含 12 个具有真实关节位置的移动婴儿序列。(N. Hesse, C. Bodensteiner, M. Arens, UG Hofmann, R. Weinberger, AS Schroeder) [28/12/19 之前]
Multi-sensor 3D Object Dataset for Object Recognition with Full Pose Estimation - Multi-sensor 3D Object Dataset for Object Recognition and Pose Estimation(Alberto Garcia-Garcia, Sergio Orts-Escolano, Sergiu Oprea,etc.) [28/12/19 之前]
NTU RGB+D Action Recognition Dataset - NTU RGB+D 是一个大规模的人类动作识别数据集(Amir Shahroudy) [28/12/19 之前]
nuTonomy 场景数据集（nuScenes） - nuScenes 数据集是一个大规模的自动驾驶数据集。它具有：完整的传感器套件（1x LIDAR、5x RADAR、6x 摄像头、IMU、GPS）、1000 个每个 20 秒的场景、1,440,000 个摄像头图像、400,000 次激光雷达扫描、两个不同的城市：波士顿和新加坡、左右手交通、详细地图信息、25 个对象类的手动注释、以 2Hz 注释的 1.1M 3D 边界框、可见性、活动和姿势等属性。(Caesar et al) [28/12/19 之前]
NYU Depth Dataset V2 - RGBD 图像的室内分割和支持推断 [28/12/19 之前]
奥克兰 3-D 点云数据集(Nicolas Vandapel) [28/12/19 之前]
Pacman 项目- 来自 20 个类别的 400 个对象的合成 RGB-D 图像。从 3D 网格模型生成（Vladislav Kramarev、Umit Rusen Aktas、Jeremy L. Wyatt。）[28/12/19 之前]
Procedural Human Action Videos - 该数据集包含大约 40,000 个使用 3D 游戏引擎生成的用于人类动作识别的视频。该数据集包含约 600 万帧，可用于训练和评估模型，不仅可以用于动作识别，还可以用于深度图估计、光流、实例分割、语义分割、3D 和 2D 姿态估计以及属性学习的模型。(Cesar Roberto de Souza) [28/12/19 之前]
基于 RGB-D 的动作识别数据集- 包含不同 rgb-d 动作识别数据集的列表和链接的论文。(Jing Zhang, Wanqing Li, Philip O. Ogunbona, Pichao Wang, Chang Tang) [28/12/19 之前]
RGB-D Part Affordance Dataset - RGB-D 图像和 105 个厨房、车间和园艺工具以及 3 个杂乱场景（Myers、Teo、Fermuller、Aloimonos）的真实可见性标签 [28/12/19 之前]
ScanNet：室内场景的丰富注释 3D 重建- ScanNet 是真实世界环境的丰富注释 RGB-D 扫描数据集，包含 1500 多次扫描中的 2.5M RGB-D 图像，注释有 3D 相机姿势、表面重建、和实例级语义分割。(Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Niessner) [28/12/19 之前]
SceneNN: A Scene Meshes Dataset with aNNotations - RGB-D 场景数据集，包含 100 多个室内场景，标记为三角形网格、体素和像素。(Hua, Pham, Nguyen, Tran, Yu, Yeung) [28/12/19 之前]
Semantic-8：8 类 3D 点云分类 (ETH Zurich) [28/12/19 之前]
小型办公室数据集- 从 2014 年 4 月开始并持续进行每 5 秒的 Kinect 深度图像。（John Folkesson 等人）[28/12/19 之前]
具有地面实况的立体和 ToF 数据集- 该数据集包含使用飞行时间传感器和立体设置获取的 5 个不同场景。还提供了地面实况信息。(Carlo Dal Mutto, Pietro Zanuttigh, Guido M. Cortelazzo) [28/12/19 之前]
SYNTHIA - 用于训练自动驾驶汽车的大型虚拟世界图像集（约半百万）。(计算机视觉中心ADAS组) [28/12/19之前]
Taskonomy - 超过 450 万张真实图像，每个图像都包含用于 25 项语义、2D 和 3D 任务的真实图像。(Zamir, Sax, Shen, Guibas, Malik, Savarese) [28/12/19 之前]
TAU 代理数据集- 由开源 3D 动画软件混合器创建的立体 RGB-D 数据集，包含 525 个分辨率为 512x1024 的图像对以及相应的地面实况像素深度图。(Haim, Elmalem, Gil, Giryes, Bronstein, Marom) [27/12/2020]
THU-READ（清华大学 RGB-D 以自我为中心的动作数据集） - THU-READ 是一个大规模的数据集，用于 RGBD 视频中的动作识别，带有像素杠杆手注释。(Yansong Tang, Yi Tian, Jiwen Lu, Jianjiang Feng, Jie Zhou) [28/12/19前]
TICaM - 飞行时间车内监控数据集（Jigyasa Singh Katrolia、Bruno Mirbach、Ahmed El-Sherif、Hartmut Feld、Jason Rambach、Didier Stricker）[1/2/21]
TrimBot2020 花园导航数据集——从安装在机器人平台上的摄像头和其他传感器以及捕获花园的其他外部传感器记录的传感器 RGBD 数据（TrimBot2020 联盟）[26/2/20]
TUM RGB-D 基准- 用于评估 RGB-D 视觉里程计和 SLAM 算法的数据集和基准（Jorgen Sturm、Nikolas Engelhard、Felix Endres、Wolfram Burgard 和 Daniel Cremers）[28/12/19 之前]
UC-3D 运动数据库- 可用数据类型包括高分辨率运动捕捉，使用来自 Xsens 的 MVN Suit 和 Microsoft Kinect RGB 和深度图像获取。（葡萄牙科英布拉系统与机器人研究所） [28/12/19 之前]
Uni Bremen Open, Abdominal Surgery RGB 数据集- 使用 Kinect v2 记录完整、开放的腹部手术，Kinect v2 直接安装在患者上方，俯视患者和工作人员。(Joern Teuber, Gabriel Zachmann, 不来梅大学) [28/12/19 之前]
UNIST LS3DPC 数据集- 用地面 LiDAR 扫描仪捕获的 11 个大型 3D 点云，用于去除反射 (Yun, Sim) [27/12/2020]
USF 范围图像数据库- 400 多个激光测距仪和结构光相机图像，其中许多具有地面实况分割（Adam 等人）[28/12/19 之前]
具有惯性和深度 (VOID) 数据集的视觉里程计- VOID 由室内和室外场景的 48K 同步惯性、图像和深度帧以及通过视觉惯性测距系统 (XIVO) 获得的稀疏点云组成，用于从图像和图像进行 3D 重建稀疏深度。(Wong, Alex and Fei, Xiaohan and Tsuei, Stephanie and Soatto, Stefano) [1/2/21]
华盛顿 RGB-D 对象数据集- 300 个常见的家居对象和 14 个场景。（华盛顿大学和Intel Labs Seattle）【28/12/19前】
Witham Wharf - 对于林肯大学在大约 10 天内每 10 分钟由机器人收集的八个位置的 RGB-D。（John Folkesson 等人）[28/12/19 之前]
York 3D Ear Dataset - York 3D Ear Dataset 是一组 500 张 3D 耳朵图像，由详细的 2D 地标合成，可用于 Matlab 格式 (.mat) 和 PLY 格式 (.ply)。(Nick Pears, Hang Dai, Will Smith, 约克大学) [28/12/19前]

一般视频

AlignMNIST - MNIST 手写数据集的人工扩展版本。(en Hauberg) [28/12/19 之前]
视听事件 (AVE) 数据集- AVE 数据集包含 4143 个 YouTube 视频，涵盖 28 个事件类别，并且 AVE 数据集中的视频在时间上标有视听事件边界。（田亚鹏、石静、李伯臣、段志耀、徐晨亮）【28/12/19前】
Dataset of Multimodal Semantic Semantic Egocentric Video (DoMSEV) - 标记为 80 小时的多模态语义以自我视频 (DoMSEV) 数据集，涵盖广泛的活动、场景、记录器、照明和天气条件。(UFMG, Michel Silva, Washington Ramos, Jo??o Ferreira, Felipe Chamone, Mario Campos, Erickson R. Nascimento) [28/12/19 之前]
DAVIS：视频对象分割数据集 2016 -视频对象分割的基准数据集和评估方法（F. Perazzi、J. Pont-Tuset、B. McWilliams、L. Van Gool、M. Gross 和 A. Sorkine-Hornung）[ 28/12/19 之前]
DAVIS：视频对象分割数据集 2017 - 2017 年 DAVIS 视频对象分割挑战（J. Pont-Tuset、F. Perazzi、S. Caelles、P. Arbelaez、A. Sorkine-Hornung 和 L. Van Gool）[28 岁之前/12/19]
EGO-CH - 一个大型以自我为中心的视频数据集，由两个不同文化遗址的真实访客获得。该数据集包括由 70 个不同主题获取的超过 27 小时的视频。整个数据集包括 26 个环境和 200 多个兴趣点 (POI) 的标签。(乔瓦尼·玛丽亚·法里内拉) [31/12/19]
FAIR-Play - 1,871 个视频剪辑（约 5 小时）及其在音乐室（Gao 和 Grauman）录制的相应双耳音频剪辑 [29/12/19]
FLIGHTMARE - 逼真、可定制且易于使用的四旋翼模拟器！它与 ROS、Gazebo、OpenAI Gym 甚至 Oculus #VR 耳机兼容。（宋、纳吉、考夫曼、洛克西奥、斯卡拉穆扎） [26/12/2020]
GoPro-Gyro 数据集- 以自我为中心的视频（林雪平计算机视觉实验室）[28/12/19 之前]
LIVE 的图像和视频质量评估- 用于开发图像质量算法（德克萨斯大学奥斯汀分校）[28/12/19 之前]
大规模 YouTube 视频数据集- 从 YouTube 视频中抓取的 156,823 个视频（2,907,447 个关键帧）（Yi Yang） [28/12/19 之前]
电影记忆数据集- 令人难忘的电影剪辑和细节记忆的真实情况，从 100 部类似好莱坞的电影（Cohendet、Yadati、Duong 和 Demarty）中提取的 660 部短片摘录 [28/12/19 之前]
MovieQA - 每台机器通过回答有关故事的问题来理解故事。15000 多项选择题，400 多部电影。（M. Tapaswi、Y. Zhu、R. Stiefelhagen、A. Torralba、R. Urtasun 和 S. Fidler）[28/12/19 之前]
多光谱可见光-NIR视频序列- 带注释的多光谱视频，可见光 + NIR（LE2I，勃艮第大学）[28/12/19 之前]
Moments in Time Dataset - Moments in Time Dataset 1M 3 秒视频，带有动作类型注释，是同类视频中动作识别和理解的最大数据集。（蒙福特、奥利瓦等人）[28/12/19 之前]
近重复视频检索数据集- 该数据库包含 156,823 个视频序列（2,907,447 个关键帧），这些视频序列是在 2010 年 7 月至 2010 年 9 月期间从 YouTube 上抓取的。（宋景宽、杨毅、黄子、沉恒涛、洪日昌） [28/12/19 之前]
PHD2：个性化高光检测数据集- PHD2 是一个具有个性化高光信息的数据集，它允许在进行预测时训练使用用户信息的高光检测模型。(Ana Garcia del Molino, Michael Gygli) [28/12/19 之前]
Sports-1M - 包含 487 个类别和 1.2M 视频的体育视频分类数据集。(Andrej Karpathy and George Toderici and Sanketh Shetty and Thomas Leung and Rahul Sukthankar and Li Fei-Fei.) [28/12/19 之前]
nuTonomy 场景数据集（nuScenes） - nuScenes 数据集是一个大规模的自动驾驶数据集。它具有：完整的传感器套件（1x LIDAR、5x RADAR、6x 摄像头、IMU、GPS）、1000 个每个 20 秒的场景、1,440,000 个摄像头图像、400,000 次激光雷达扫描、两个不同的城市：波士顿和新加坡、左右手交通、详细地图信息、25 个对象类的手动注释、以 2Hz 注释的 1.1M 3D 边界框、可见性、活动和姿势等属性。(Caesar et al) [28/12/19 之前]
REDS (REalistic and Dynamic Scenes) - 具有参考清晰帧的高质量逼真模糊视频数据集（GOPRO 的改进版）（Nah、Baik、Hong、Moon、Son、Timofte 和 Lee） [4/1/20]
基于对相机的最小假设，用于研究欧几里得升级的视频序列(Kenton McHenry) [28/12/19 之前]
视频堆叠数据集- 用于智能手机上手持视频堆叠的虚拟三脚架（Erik Ringaby 等）[28/12/19 之前]
VideoMem 数据集- VideoMem 或视频记忆数据库是无声视频摘录及其相应的真实记忆文件的集合。记忆力分数是基于对短期和长期情况下观看几分钟后识别小视频片段时的短期和长期记忆表现的测量计算得出的，而对于长期情况则为 24 至 72 小时后. 它伴随着从视频摘录中提取的视频特征。它旨在用于理解视频的可记忆性和评估用于预测多媒体内容可记忆性的方法的质量。(Cohendet、Demarty、Duong 和Engilberge) [6/1/20]
YFCC100M 视频- YFCC100M视频子集的基准测试，其中包括视频、视频内容功能和最先进的视频内容引擎的 API。(陆江) [28/12/19前]
YFCC100M：多媒体研究中的新数据- 这个包含 1 亿张照片和视频的公开精选数据集对所有人免费且合法。（Bart Thomee、Yahoo Labs 和旧金山的 Flickr 等） [28/12/19 之前]
Youtube-360 - 来自 YouTube 的带有空间音频（一阶 Ambisonics）的 360 度视频集合，包含来自各种主题的剪辑，例如音乐表演、视频博客、体育等。(Morgado, Li, Vasconcelos) [7/1/2021]
YouTube-8M - 用于野外视频分类的数据集，包含从 8M 视频和 4800 个类中预先提取的帧级特征。(Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, Paul Natsev,George Toderici, Balakrishnan Varadarajan, Sudheendra Vijayanarasimhan) [28/12/19 之前]
YouTube-BoundingBoxes - 来自 23 个跨帧跟踪的对象类的 560 万个准确的人工注释 BB，来自 240,000 个 YouTube 视频，重点关注人物类（130 万个框）（Real、Shlens、Pan、Mazzocchi、Vanhoucke、Khan Kakarla 等人）[28/12/19 之前]
YUP++ / 动态场景数据集- 20 个户外场景类，每个类包含来自 60 个不同场景的 60 个彩色视频（每 5 秒，480 像素宽，24-30 fps）。一半的视频使用静态摄像机，另一半使用移动摄像机（Feichtenhofer、Pinz、Wildes）[28/12/19 之前]

手、手抓握、手部动作和手势数据库

11k Hands - 11,076 幅手部图像（1600 x 1200 像素），包含 190 位受试者，年龄在 18 到 75 岁之间，具有元数据（身份、性别、年龄、肤色、惯用手、哪只手、配件等）。(Mahmoud Afifi) [28/12/19 之前]
200 亿小丑- 密集标记的视频剪辑，显示人类在笔记本电脑摄像头或网络摄像头前执行预定义的手势（200 亿神经元有限公司）[28/12/19 之前]
具有单深度图像的 3D 关节手姿势估计（Tang、Chang、Tejani、Kim、Yu） [28/12/19 之前]
A-STAR Annotated Hand-Depth Image Dataset and its Performance Evaluation -depth data and data glove data, 30名志愿者的29张图片，中文数数和美国手语（Xu and Cheng） [28/12/19之前]
博斯普鲁斯海峡手部几何数据库和手静脉数据库（Bogazici大学） [28/12/19之前]
ContactPose - 具有手对象接触、手和对象姿势以及 2.9 M RGB-D 抓取图像的大型功能抓取数据集（Brahmbhatt、Tang、Twigg、Kemp、Hays） [30/12/2020]
人类操纵动作数据集- 25 个对象和 6 个动作的 RGB-D (Alessandro Pieropan) [28/12/19 之前]
DemCare 数据集- DemCare 数据集由一组来自不同传感器的不同数据集合组成，可用于从可穿戴/深度和静态 IP 摄像头识别人类活动、用于阿尔茨海默氏病检测的语音识别以及用于步态分析和异常检测的生理数据。(K. Avgerinakis, A.Karakostas, S.Vrochidis, I. Kompatsiaris) [28/12/19 之前]
DVS128 手势数据集- 基于事件的数据集，包含 11 个手势序列，由 29 名受试者在多种照明条件下执行，使用 DVS128 传感器捕获。每个序列都用每个手势的开始和停止时间进行注释。（Amir、Taba、Berg、Melano、McKinstry、Di Nolfo、Nayak、Andreopoulos、Garreau、Mendoza、Kusnitz、Debol、Esser、Delbruck、Flickner 和 Modha） [7/1/20]
EgoDaily - 以自我为中心的手部检测数据集，具有人、活动和地点的可变性，以模拟日常生活情况（Cruz、Chan） [30/12/2020]
EgoGesture 数据集- 83 个类、50 个主体、6 个场景、24161 个 RGB-D 视频样本（张、曹、程、陆）的第一人称视角手势 [28/12/19 之前]
EgoHands - 一个包含超过 15,000 像素级分割手的大型数据集，这些手是从人们相互交互的以自我为中心的相机记录的。(Sven Bambach) [28/12/19 之前]
Ego3DHands - 用于 3D 全局姿态估计的 RGB-D 合成大规模以自我为中心的双手数据集 (Lin, Wilhelm) [28/12/2020]
EgoYouTubeHands 数据集- 一个以自我为中心的手部分割数据集，包含来自 YouTube 视频的 1290 个带注释的帧，这些帧在不受约束的现实世界设置中记录。这些视频在环境、参与者数量和动作上都有所不同。该数据集可用于研究无约束设置中的手部分割问题。(Aisha Urooj, A. Borji) [28/12/19 之前]
Face-Touching-Behavior - 200 万个视频帧注释为由商场群体社交互动的视听记录组成的数据集的面部触摸、非面部触摸。(C. Beyan, M. Bustreo, M. Shahid, G. Bailo, N. Carissimi, A. Del Bue) [1/2/21]
FORTH 手部追踪库(FORTH) [28/12/19 之前]
一般手：一般手检测和姿势挑战- 22 个具有不同手势、活动和观点的序列（加州大学欧文分校）[28/12/19 之前]
GRASP MultiCam 数据集- 将来自同步立体单色相机和 IMU 的视频与来自飞行时间深度传感器的深度图像相结合，从而实现准确的视觉惯性测距 (VIO) 和从深度传感器点云中恢复 3D 结构（ Pfrommer, Owens, Shariati, Skandan, Taylor, Daniilidis) [27/12/2020]
Grasp UNderstanding (GUN-71) 数据集- 12,000 张第一人称 RGB-D 对象操作场景图像，使用 71 个细粒度抓取的分类法进行注释。(Rogez、Supancic 和 Ramanan) [28/12/19 之前]
手势检测数据集（Javier Molina 等）[28/12/19 之前]
手势和海洋剪影(Euripides GM Petrakis) [28/12/19 之前]
HandNet：关节手的带注释的深度图像 214971手的带注释的深度图像，由手部姿势的 RealSense RGBD 传感器捕获。注释：每像素类、6D 指尖姿势、热图。训练：202198，测试：10000，验证：2773。记录在 Technion 的 GIP 实验室。[28/12/19 之前]
HandOverFace 数据集- 手部分割数据集由来自网络的 300 个带注释的帧组成，用于研究手部遮挡面部问题。(Aisha Urooj, A. Borji) [28/12/19 之前]
IDIAP 手部姿势/手势数据集(Sebastien Marcel) [28/12/19 之前]
Kinect 和 Leap 运动手势识别数据集- 该数据集包含使用 Leap Motion 和 Kinect 设备（Giulio Marin、Fabio Dominio、Pietro Zanuttigh）获取的 1400 个不同手势 [28/12/19 之前]
Kinect 和 Leap 运动手势识别数据集- 该数据集包含使用 Creative Senz3D 相机获取的几种不同静态手势。(A. Memo, L. Minto, P. Zanuttigh) [28/12/19 之前]
LISA CVRR-HANDS 3D - 8 名受试者作为汽车驾驶员和乘客（Ohn-Bar 和 Trivedi）执行的 19 个手势 [28/12/19 之前]
用于评估 3D 关节手运动跟踪的 MPI Dexter 1 数据集- Dexter 1：7 个具有挑战性的、慢速和快速手部运动序列，RGB + 深度（Sridhar、Oulasvirta、Theobalt）[28/12/19 之前]
MSR 实时鲁棒深度手部追踪- (Qian, Sun, Wei, Tang, Sun) [28/12/19 之前]
手机和网络摄像头手部图像数据库- MOHI 和 WEHI - 200 人，每人 30 张图像 (Ahmad Hassanat) [28/12/19 之前]
NTU-Microsoft Kinect 手势数据集- 这是一个 RGB-D 手势数据集，10 个对象 x 10 个手势 x 10 个变化。（周仁、袁俊松、孟晶晶、张政友）【28/12/19前】
NUIG_Palm1 - 使用消费类设备在无约束条件下获取的掌纹图像数据库，用于掌纹识别实验。(Adrian-Stefan Ungureanu) [28/12/19 之前]
NYU Hand Pose Dataset - 8252 个测试集和 72757 个训练集帧捕获的 RGBD 数据，具有真实的手部姿势，3 个视图（Tompson、Stein、Lecun、Perlin）[28/12/19 之前]
PRAXIS 手势数据集- RGB-D 上身数据来自 29 个手势，64 个志愿者，多次重复，许多志愿者有一定的认知障碍 (Farhood Negin, INRIA) [28/12/19 之前]
渲染手势数据集- 用于 2D/3D 手势估计的合成数据集，具有 RGB、深度、分割掩码和每只手 21 个关键点（Christian Zimmermann 和 Thomas Brox）[28/12/19 之前]
ROSHAMBO17 - RoShamBo Rock Scissors Paper 游戏 DVS 数据集- “数据集记录了大约 20 个人，每个人显示了大约 2m 的岩石、剪刀和纸符号，具有各种姿势、距离、位置、左手/右手。”（Lungu， Corradi, Delbruck，神经信息学研究所，UZH 和 ETH Zurich) [27/12/2020]
RWTH-Boston-50和RWTH-Boston-104 - 美国手语手势视频数据集，包含 201 个注释句子，由 4 个摄像头（2 个黑白立体，1 个彩色，一个侧视图黑白）atg 30 fps 和 312 *242 像素。50 数据集有 50 个单词的 483 条话语。(Dreuw, Keysers, Forster, Deselaers, Rybach, Zahedi, Ney) [14/3/20]
Sahand LMC 手语数据库- 该数据库由网络摄像头和 Leap Motion Controller (LMC) 收集，包括 32 个类别，其中包括 24 个美国字母（J 和 Z 被排除，因为它们是动态手势）和从 0 到 9 的数字（手势为6 和 w，9 和 F 的手势也相同）。每类数据库包含2000个样本。(Mahdikhanlou, Ebrahimnezhad) [27/12/2020]
Sahand 动态手势数据库- 该数据库包含 11 种动态手势，旨在将鼠标和触摸屏的功能传达给计算机。(Behnam Maleki, Hossein Ebrahimnezhad) [28/12/19 之前]
谢菲尔德手势数据库- 2160个RGBD手势序列，6个主体，10个手势，3个姿势，3个背景，2个光照（Ling Shao）[28/12/19之前]
SL-ANIMALS-DVS 数据库- SL-ANIMALS-DVS 数据库包含人类以非常低的延迟执行各种动物手语手势的 DVS 记录。（Serrano-Gotarredona，Linares-Barranco）[27/12 /2020]
UT Grasp Data Set - 4个科目抓取各种物体的各种抓取（Cai，Kitani，Sato）[28/12/19之前]
WLASL - 词级美国手语语言数据集，包含 2000 个常用词和 21k RGB 视频，由一百多个本地手语者（Li、Rodriguez、Yu、Li）表演 [27/12/2020]
耶鲁人类抓取数据集- 27 小时视频，包含来自两名管家和两名机械师（Bullock、Feix、Dollar）的标记抓取、物体和任务数据 [28/12/19 之前]

图像、视频和形状数据库检索

2D 到 3D 可变形草图- 一组可变形 2D 轮廓，与同一类的可变形 3D 网格逐点对应；提供了大约 10 个对象类，包括人类和动物。(Lahner, Rodola) [28/12/19 之前]
杂波中的 3D 可变形对象 - 杂波中 3D 可变形对象的数据集，具有跨越数百个场景并跨越多个类别（人类、动物）的逐点地面实况对应。(Cosmo, Rodola, Masci, Torsello, Bronstein) [28/12/19 之前]
3D eye fixation dataset - A saliency dataset on 3D models (Shanfeng Hu, Xiaohui Liang, Hubert PH Shum, Fredrick WB Li and Nauman Aslam) [1/2/21]
ANN_SIFT1M - 由 128D SIFT 描述符编码的 1M Flickr 图像（Jegou 等人）[28/12/19 之前]
布朗大学 25/99/216 形状数据库(Ben Kimia) [28/12/19 之前]
CIFAR-10 - 来自 10 个类别的 60K 32x32 图像，带有 512D GIST 描述符 (Alex Krizhevsky) [28/12/19 之前]
CLEF-IP 2011 专利图像评估[28/12/19 之前]
Contour Drawing Dataset - 一个包含 5,000 个配对图像和轮廓图的数据集，用于研究视觉理解和草图生成（Li、Lin、Měch、Yumer 和 Ramanan） [9/1/20]
DeepFashion - 大型时尚数据库（刘紫薇、罗平、石秋、王小刚、唐晓鸥）[28/12/19前]
EMODB - picsearch 图像搜索引擎中的图像缩略图以及 picsearch 情感关键字（Reiner Lenz 等）[28/12/19 之前]
ETU10 剪影数据集- 该数据集由 10 个对象的 720 个剪影组成，每个对象有 72 个视图。(M. Akimaliev 和 MF Demirci) [28/12/19 之前]
2013年欧洲洪水- 中欧洪水事件的 3,710 张图像，注释了与 3 个图像检索任务（多标签）和重要图像区域的相关性。(Friedrich Schiller University Jena, Deutsches GeoForschungsZentrum Potsdam) [28/12/19 之前]
Fashion-MNIST - 类似 MNIST 的时尚产品数据库。（韩晓，Zalando研究）【28/12/19前】
鱼形数据库- 这是一个鱼形数据库，具有 100 个二维点集形状。(Adrian M. Peter) [28/12/19 之前]
Flickr 30K - 图像、动作和字幕（Peter Young 等人）[28/12/19 之前]
Flickr15k - 基于草图的图像检索 (SBIR) 基准- 包含 330 个草图和 15,024 张照片的数据集，包括 33 个对象类别，基准数据集通常用于评估基于草图的图像检索 (SBIR) 算法。(Hu and Collomosse, CVIU 2013) [28/12/19 之前]
Hands in action (HIC) IJCV 数据集- 用于跟踪 1 只手或 2 只手与/o 1 个对象的数据（图像、模型、运动）。包括 * 单视图 RGB-D 序列（1 个主题，> 18 个带注释的序列，4 个对象，完整的 RGB 图像）和 *多视图 RGB 序列（1 个主题，高清，8 个视图，8 个序列 - 1 个注释，2对象）。(Dimitrios Tzionas, Luca Ballan, Abhilash Srikantha, Pablo Aponte, Marc Pollefeys, Juergen Gall) [28/12/19 之前]
IAPR TC-12 图像基准(Michael Grubinger) [28/12/19 之前]
IAPR-TC12 分割和注释图像基准（SAIAPR TC-12）：（ Hugo Jair Escalante）[28/12/19 之前]
ImageCLEF 2010 概念检测与标注任务(Stefanie Nowak) [28/12/19 之前]
ImageCLEF 2011 概念检测与标注任务——Flickr 照片中的多标签分类挑战 [28/12/19 之前]
INRIA Copydays 数据集- 用于评估复制检测：JPEG、裁剪和“强”复制攻击。(INRIA) [28/12/19 之前]
INRIA Holidays 数据集- 用于图像搜索评估：500 个查询和 991 个相应的相关图像（Jegou、Douze 和 Schmid）[28/12/19 之前]
MA14KD（电影吸引力 14K 数据集）数据集- 14K 电影/电视预告片，每个预告片 10 个，链接到评级数据集（Elahi、Moghaddam、Hosseini、Trattner、Tkalčič）[28/12/19 之前]
METU 商标数据集METU 数据集由超过 90 万个属于全球公司的真实徽标组成。(Usta Bilgi Sistemleri AS 和 Grup Ofis Marka Patent AS) [28/12/19 之前]
McGill 3D Shape Benchmark (Siddiqi, Zhang, Macrini, Shokoufandeh, Bouix, Dickinson) [28/12/19 之前]
MPEG-7 核心实验 CE-Shape-1 - 1400 个二进制 2D 形状分为 70 个类别，每个类别有 20 个形状（Latecki、Lakamper、Eckhardt）[29/12/2020]
MPI MANO & SMPL+H 数据集- 统计模型 MANO（仅限手）和 SMPL+H（身体 + 手）的模型、4D 扫描和注册。对于 MANO，有 31 个对象执行多达 51 个姿势的约 2k 静态 3D 扫描。对于 SMPL+H，我们包含 11 个受试者的 39 个 4D 序列。(哈维尔·罗梅罗、迪米特里奥斯·齐奥纳斯和迈克尔·J·布莱克) [28/12/19 之前]
多视图立体评估- 每个数据集都注册了通过激光扫描过程获得的“真实”3D 模型（Steve Seitz 等人）[28/12/19 之前]
NIST SHREC - 2014 NIST 检索竞赛数据库和链接（美国国家标准与技术研究所） [28/12/19 之前]
NIST SHREC - 2013 NIST 检索竞赛数据库和链接（美国国家标准与技术研究所） [28/12/19 之前]
NIST SHREC 2010 - 非刚性 3D 模型的形状检索竞赛（美国国家标准与技术研究所）[28/12/19 之前]
NIST TREC 视频检索评估数据库（美国国家标准与技术研究院） [28/12/19 之前]
NUS-WIDE - 用 81 个概念标签注释的 269K Flickr 图像，包含为 500D BoVW 描述符（Chau 等人）[28/12/19 之前]
普林斯顿形状基准（Princeton Shape Retrieval and Analysis Group）【28/12/19前】
PairedFrames - 3D 姿态跟踪误差评估- 合成和真实数据集，用于测试 3D 姿态跟踪/细化，姿态初始化接近/远离/远离最小值。建立难度增加的测试帧对，分别测量姿态估计误差，而不使用完整的跟踪管道。(Dimitrios Tzionas, Juergen Gall) [28/12/19 之前]
昆士兰跨媒体数据集——用于“跨媒体”检索的百万图文文档（易扬） [28/12/19之前]
Reconstructing Articulated Rigged Models from RGB-D Videos (RecArt-D) - 对象在操作过程中变形的数据集。包括 4 个 RGB-D 序列（完整的 RGB 图像）、每个对象的可变形跟踪结果，以及每个对象的 3D 网格和 Ground-Truth 3D 骨架。(Dimitrios Tzionas, Juergen Gall) [28/12/19 之前]
Reconstruction from Hand-Object Interactions (R-HOI) - 一只手与未知物体交互的数据集。包含4个RGB-D序列，共4个物体，RGB图像就完成了。包括跟踪的 3D 运动和对象的 Ground-Truth 网格。(Dimitrios Tzionas, Juergen Gall) [28/12/19 之前]
重温牛津和巴黎 (RevisitOP) - 众所周知的地标/建筑物检索数据集的改进和更具挑战性的版本（修复错误、新的注释和评估协议、新的查询图像）以及 100 万张干扰图像。(F. Radenovic, A. Iscen, G. Tolias, Y. Avrithis, O. Chum) [28/12/19 之前]
SBU 字幕数据集- 从 Flickr（Ordonez、Kulkarni 和 Berg）收集的 100 万张图像的图像字幕 [28/12/19 之前]
SHREC'16 Deformable Partial Shape Matching - 大约 400 个 3D 可变形形状的集合，这些形状经历了强烈的部分变换，包括点对点地面实况对应。(Cosmo, Rodola, Bronstein, Torsello) [28/12/19 之前]
SHREC 2016 - 3D Sketch-Based 3D Shape Retrieval - 使用手绘 3D 草图查询数据集在通用 3D 模型数据集上评估不同基于 3D 草图的 3D 模型检索算法性能的数据（李博）[28/12 之前/19]
SHREC'17 Deformable Partial Shape Retrieval - 大约 4000 个经过严重部分变换的可变形 3D 形状的集合，以不规则的缺失部分和范围数据的形式；提供了地面实况类信息。(Lahner, Rodola) [28/12/19 之前]
SHREC Watertight Models Track (of SHREC 2007) - 400 个水密 3D 模型 (Daniela Giorgi) [28/12/19 之前]
SHREC Partial Models Track (of SHREC 2007) - 400 个水密 3D DB 模型和 30 个减少水密查询模型 (Daniela Giorgi) [28/12/19 之前]
Sketch me That Shoe - 在细粒度设置中基于草图的对象检索。将草图与特定的鞋子和椅子相匹配。(Qian Yu, QMUL, T. Hospedales Edinburgh/QMUL)。[28/12/19 之前]
SmartphoneDataset - 属于 40 个主题的手机拍摄的个人照片数据集 (Lonn S, Radeva P, Dimiccoli M.) [1/2/21]
SPARE3D - 包含为深度网络设计的各种基于线图的空间 IQ 测试（形状一致性、相机姿势和形状生成），其中最先进的网络表现得像几乎随机猜测（纽约大学 AI4CE 实验室）[27/ 12/2020]
TOSCA 3D 形状数据库（Bronstein、Bronstein、Kimmel） [28/12/19 之前]
Totally Looks Like - 用于预测基于人类的图像相似性的评估基准（Amir Rosenfeld、Markus D. Solbach、John Tsotsos）[28/12/19 之前]
UCF-CrossView Dataset: Cross-View Image Matching for Geo-localization in Urban Environments - 用于交叉视图图像地理定位的街景和鸟瞰图图像的新数据集。（中佛罗里达大学计算机视觉研究中心）【28/12/19前】
YouTube-8M 数据集- 用于视频理解研究的大型多样化标记视频数据集。(Google Inc.) [28/12/19 之前]

对象数据库

各种物体和场景的2.5D/3D数据集（Ajmal Mian） [28/12/19之前]
3D 物体识别立体数据集该数据集由 9 个物体和 80 个测试图像组成。(Akash Kushal 和 Jean Ponce) [28/12/19 之前]
3D 摄影数据集我们实验室捕获的十个多视图数据集的集合（Yasutaka Furukawa 和 Jean Ponce）[28/12/19 之前]
3D 打印 RGB-D 对象数据集- 5 个具有真实 CAD 模型和相机轨迹的对象，用各种质量的 RGB-D 传感器（Siemens & TUM）记录 [28/12/19 之前]
3DNet 数据集- 3DNet 数据集是用于从点云数据进行对象类识别和 6DOF 姿态估计的免费资源。（John Folkesson 等人）[28/12/19 之前]
ABC 数据集- 一百万个 CAD 模型，包括地面分析描述（样条补丁）、密集网格、点云、法线。（科赫、马特维耶夫、江、威廉姆斯、阿尔特莫夫、伯纳耶夫、亚历克萨、佐林、帕诺佐） [2/1/20]
各种对象的对齐 2.5D/3D 数据集- 用于从单个深度视图重建对象的合成和真实世界数据集。（杨博、Stefano Rosa、Andrew Markham、Niki Trigoni、文宏凯）【28/12/19前】
阿姆斯特丹对象图像图书馆 (ALOI)：1000 万个对象的 100K 视图（阿姆斯特丹大学/智能传感信息系统）[28/12/19 之前]
ATRW - 野外阿穆尔虎重新识别- 92 个人的 8,000 只阿穆尔虎视频剪辑（MakerCollider 和 WWF） [26/1/20]
具有属性 2 的动物- 50 个动物类别的 37322（免费许可）图像，每个类别有 85 个二进制属性。（Christoph H. Lampert，IST 奥地利）[28/12/19 之前]
ASU Office-Home Dataset - 用于域适应的日常对象的对象识别数据集 (Venkateswara, Eusebio, Chakraborty, Panchanathan) [28/12/19 之前]
ATIS 飞机数据集- ATIS 飞机数据集是基于事件的自由手抛飞机模型。 (Afshar, Tapson, van Schaik, Cohen) [27/12/2020]
B3DO：伯克利 3-D 对象数据集- 家庭对象检测（Janoch 等）[28/12/19 之前]
布里斯托尔以自我为中心的对象交互数据集- 以自我为中心的对象与同步凝视的交互（Dima Damen）[28/12/19 之前]
CIFAR-10H - 一个新的软标签数据集，反映了 10,000 幅图像 CIFAR-10 测试集（Peterson、Battleday、Griffiths、Russakovsky）的人类感知不确定性 [14/1/20]
CORE 图像数据集- 帮助学习更详细的模型并探索对象识别中的跨类别泛化。（Ali Farhadi、Ian Endres、Derek Hoiem 和 David A. Forsyth）[28/12/19 之前]
展开服装的CTU 颜色和深度图像数据集- 带有注释角的展开服装的图像。(Wagner, L., Krejov D., and Smutn V. (布拉格捷克理工大学)) [28/12/19 之前]
Caltech 101（现为256）类别对象识别数据库（李飞飞、Marco Andreeto、Marc'Aurelio Ranzato） [28/12/19前]
Catania Fish Species Recognition - 15 种鱼类，包含大约 20,000 个样本训练图像和额外的测试图像 (Concetto Spampinato) [28/12/19 之前]
COCO - 上下文中的常见对象- 一个大规模对象检测、分割和字幕数据集：330K 图像、200K 标记、1.5m 对象实例、80 个对象类别、91 个东西类别、250K 人（Lin、Patterson、Ronchi、Cui、 Maire, Belongie, Bourdev, Girshick, Hays, Perona, Ramanan, Zitnick, Dollar) [12/08/20]
COCO-Stuff 数据集- 164K 图像标记为“东西”和“东西”（Caesar、Uijlings、Ferrari）[28/12/19 之前]
COCO-Tasks - 来自 coco 数据集的 40k 图像使用最合适的对象进行注释以解决 14 个任务（波恩大学）[27/12/2020]
Columbia COIL-100 3D 对象多视图（哥伦比亚大学） [28/12/19 之前]
CompCars - 汽车和零件的图像。来自网络的 136,726 张图片，包含 163 个汽车制造商和 1,716 个汽车模型。50,000 张前视监控图像。(杨、罗、洛伊、唐) [1/6/20]
Country Flags in the Wild - 224 个不同国家/地区的国旗的12,854 个训练图像和 6,110 个测试图像被手动裁剪以松散地适合内在的旗帜。(Jetley) [28/12/19 之前]
COWC - 带上下文的汽车开销。32,716 辆独特的带注释的汽车。58,247 个独特的反面例子。15 cm 每像素分辨率，来自六个不同的位置。（劳伦斯利弗莫尔国家实验室）【28/12/19前】
CURE-OR - 为对象识别挑战虚幻和真实环境（D. Temel 和 J. Lee 和 G. AlRegib）[1/2/21]
CURE-TSD - 挑战交通标志检测的虚幻和真实环境（D. Temel 和 M. Chen 和 G. AlRegib）[1/2/21]
CURE-TSR - 挑战交通标志识别的不真实和真实环境（D. Temel 和 G. Kwon 和 M. Prabhushankar 和 G. AlRegib）[1/2/21]
DAWN：自然灾害中的车辆检测- 来自真实交通环境的 1000 张图像的集合，分为四组天气条件：雾、雪、雨和沙尘暴（肯克、哈萨巴拉）[28/12/2020]
Deeper, Broader and Artier Domain Generalization - 域泛化任务数据集。(Da Li, QMUL) [28/12/19 之前]
密集采样的对象视图：2500 个对象的 2500 个视图，例如用于基于视图的识别和建模（Gabriele Peters，多特蒙德大学）[28/12/19 之前]
爱丁堡厨房用具数据库- 20 类厨房用具的 897 张原始和二值图像，是训练未来家庭辅助机器人的资源 (D. Fullerton, A. Goel, RB Fisher) [28/12/19 之前]
EDUB-Obj - 用于对象定位和分割的以自我为中心的数据集。（Marc Bolaños 和 Petia Radeva。）[28/12/19 之前]
椭圆查找数据集（Dilip K. Prasad 等）[28/12/19 之前]
FGVC-Aircraft Benchmark - 10,200 张飞机图像，102 种不同的飞机模型变体（Maji、Kannala、Rahtu、Blaschko、Vedaldi）各有 100 张图像 [28/12/19 之前]
FIN-Benthic - 这是一个用于底栖大型无脊椎动物自动细粒度分类的数据集。有来自 64 个类别的 15074 张图像。每个类别的图像数量从 577 到 7 不等。（Jenni Raitoharju、Ekaterina Riabchenko、Iftikhar Ahmad、Alexandros Iosifidis、Moncef Gabbouj、Serkan Kiranyaz、Ville Tirronen、Johanna Arje）[28/12/19 之前]
GERMS - 我们用于 GERMS 数据收集的对象集由 136 个不同微生物的填充玩具组成。玩具分为7个较小的类别，由玩具微生物的语义划分形成。将对象分成更小的类别的动机是提供具有不同难度的基准。(Malmir M, Sikka K, Forster D, Movellan JR, Cottrell G.) [28/12/19 之前]
GDXray：用于 X 射线测试和计算机视觉的 X 射线图像- GDXray 包括五组图像：铸件、焊缝*、行李、自然和设置。（智利天主教大学Domingo Mery）【28/12/19前】
GMU Kitchens Dataset - 来自 BigBird 数据集的 9 个不同厨房的 11 种常见家居产品的实例级注释（乔治梅森大学）[28/12/19 之前]
Grasping In The Wild - 自然日常生活对象的以自我为中心的视频数据集。7 个厨房 16 件物品。(Benois-Pineau, Larrousse, de Rugy) [28/12/19 之前]
GRAZ-02 数据库（自行车、汽车、人）（A. Pinz）[28/12/19 之前]
GREYC 3D - GREYC 3D 彩色网格数据库是一组使用 3D 彩色激光扫描仪获取的具有不同颜色、几何形状和纹理的 15 个真实物体。（阿纳斯·努里、克里斯托夫·查里尔、奥利维尔·莱佐雷）[28/12/19 之前]
GTSDB：德国交通标志检测基准和GTSRB：德国交通标志识别基准（Ruhr-Universitat Bochum） [28/12/19 之前]
ICubWorld - iCubWorld 数据集是通过 iCub 人形机器人在观察日常物体时的摄像头记录获取的图像集合。（Giulia Pasquale、Carlo Ciliberto、Giorgio Metta、Lorenzo Natale、Francesca Odone 和 Lorenzo Rosasco。）[28/12/19 之前]
工业 3D 对象检测数据集 (MVTec ITODD) - 3500 个标记场景中 28 个对象的深度和灰度值数据，用于 3D 对象检测和姿态估计，重点关注工业设置和应用（MVTec Software GmbH，慕尼黑）[28/12 之前/19]
Instagram 食品数据集- 一个包含 800,000 个食品图像和相关元数据的数据库，该数据库在 6 周内发布到 Instagram。支持食物类型识别和社交网络分析。(T. Hospedales. Edinburgh/QMUL) [28/12/19 之前]
Keypoint-5 dataset - 五种家具及其二维关键点标签的数据集（Jiajun Wu、Tianfan Xue、Joseph Lim、Yuandong Tian、Josh Tenenbaum、Antonio Torralba、Bill Freeman） [28/12/19 之前]
KTH-3D-TOTAL - RGB-D 数据，桌面上的对象已注释。20 张桌子，每天 3 次，超过 19 天。（John Folkesson 等人）[28/12/19 之前]
Laval 6 DOF 对象跟踪数据集- 一个包含 297 个 RGB-D 序列的数据集，其中 11 个对象用于 6 DOF 对象跟踪。(Mathieu Garon, Denis Laurendeau, Jean-Francois Lalonde) [28/12/19 之前]
LISA 交通灯数据集- 各种照明条件下的 6 个光类（Jensen、Philipsen、Mogelmose、Moeslund 和 Trivedi）[28/12/19 之前]
LISA 交通标志数据集- 47 种美国标志类型的视频，在 6610 帧上有 7855 个注释（Mogelmose、Trivedi 和 Moeslund）[28/12/19 之前]
Linkoping 3D 对象姿态估计数据库（Fredrik Viksten 和 Per-Erik Forssen）[28/12/19 之前]
Linkoping 交通标志数据集- 20K 图像中的 3488 个交通标志（Larsson 和 Felsberg）[28/12/19 之前]
Longterm Labeled - 此数据集包含来自长期数据集（上面的长期数据集）的观测值的子集。（John Folkesson 等人）[28/12/19 之前]
主要产品检测数据集- 包含时尚产品的文本元数据及其图像以及主要产品的边界框（文本引用的那个）。(A. Rubio, L. Yu, E. Simo-Serra 和 F. Moreno-Noguer) [28/12/19 之前]
MCIndoor20000 - 来自三个不同室内物体类别的 20,000 个数字图像：门、楼梯和医院标志。(Bashiri、LaRose、Peissig 和 Tafti) [28/12/19 之前]
Mexculture142 - 墨西哥文化遗产物品和眼球追踪器注视点（Montoya Obeso、Benois-Pineau、Garcia-Vazquez、Ramirez Acosta）[28/12/19 之前]
MinneApple：苹果检测和分割的基准数据集- 在果园中获取的高分辨率图像，在 1000 张图像中包含超过 40000 个带注释的对象实例。用于检测、聚类素、产量估计（Haeni、Roy、Isler）[30/12/2020]
MIO-TCD - 786,702 张车辆图像，648,959 张分类图像和 137,743 张定位图像。由数千个交通摄像头在一天中的不同时间和一年中的不同时段获取。（罗、查伦、勒梅尔、康拉德、李、米斯拉、阿奇卡、艾切尔、乔多因） [1/6/20]
MIT CBCL Car Data（生物与计算学习中心）【28/12/19 之前】
MIT CBCL StreetScenes 挑战框架： (Stan Bileschi) [28/12/19 之前]
Microsoft COCO - 上下文中的常见对象（Tsung-Yi Lin 等） [28/12/19 之前]
Microsoft 对象类别识别图像数据库（Antonio Criminisi、Pushmeet Kohli、Tom Minka、Carsten Rother、Toby Sharp、Jamie Shotton、John Winn）[28/12/19 之前]
Microsoft 显着对象数据库（由边界框标记）（Liu、Sun Zheng、Tang、Shum） [28/12/19 之前]
MNIST-DVS 和 FLASH-MNIST-DVS 数据库- 该数据集基于原始的基于帧的 MNIST 数据集，并包含 DVS（动态视觉传感器）的记录。（Yousefzadeh、Serrano-Gotarredona、Linares-Barranco）[27/12/ 2020]
移动标记- 此数据集扩展了长期数据集，在 KTH 的同一办公环境中具有更多位置。（John Folkesson 等人）[28/12/19 之前]
N-Caltech101 (Neuromorphic-Caltech101) - 该数据集是原始基于框架的 Caltech101 数据集的峰值版本。（Orchard、Cohen、Jayawant、Thakor） [27/12/2020]
N-Cars - “数据集由 12,336 个汽车样本和 11,693 个非汽车样本（背景）组成，用于由 ATIS 相机记录的分类。”（Sironi、Brambilla、Bourdis、Lagorce、Benosman）[27/12/2020]
N-MNIST (Neuromorphic-MNIST) - 该数据集是基于框架的原始手写数字 MNIST 数据集的尖峰版本。 (Orchard, Cohen, Jayawant, Thakor) [27/12/2020]
N-SOD 数据集- “神经形态单对象数据集 (N-SOD)，包含三个对象，其样本的时间长度不同，使用基于事件的传感器记录。”（Ramesh、Ussa、Vedovs、Yang、Orchard）[27/12 /2020]
NABirds 数据集- 北美常见的 400 种鸟类的 70,000 张带注释的照片 (Grant Van Horn) [28/12/19 之前]
NEC 玩具动物物体识别或分类数据库(Hossein Mobahi) [28/12/19 之前]
NORB 50 玩具图像数据库(NYU) [28/12/19 之前]
NTU-VOI：NTU 视频对象实例数据集- 带有对象实例的帧级边界框注释的视频剪辑，用于评估大规模视频中的对象实例搜索和定位。(Jingjing Meng, et. al.) [28/12/19前]
ObjectNet - 50,000 个图像测试集，与 ImageNet 相同，具有旋转、背景和视点控制。(Andrei Barbu, David Mayo, Julian Alverio, William Luo, Christopher Wang, Dan Gutfreund, Josh Tenenbaum, and Boris Katz) [1/2/21]
对象姿态估计数据库- 该数据库包含 16 个对象，每个对象沿两个旋转轴以 5 度角增量采样（F. Viksten 等）[28/12/19 之前]
对象识别数据库该数据库具有八个对象的建模镜头和包含多个对象的 51 个杂乱的测试镜头。（Fred Rothganger、Svetlana Lazebnik、Cordelia Schmid 和 Jean Ponce。） [28/12/19 之前]
Omniglot - 来自 50 个不同字母的 1623 个不同手写字符（Lake、Salakhutdinov、Tenenbaum）[28/12/19 之前]
Open Images Dataset V6 600 个类别上的 15,851,536 个框，19,794 个类别上的 59,919,574 个图像级标签。350 个类别的 2,785,498 个实例分割。1,466 个关系的 3,284,282 个关系注释。507,444 个本地化叙述。478,000 张众包图片，包含 6,000 多个类别。（法拉利、杜里格、戈麦斯）[28/12/19 之前]
Open Museum Identification Challenge (Open MIC) Open MIC 包含在几个博物馆的 10 个不同展览空间（绘画、雕塑、珠宝等）中捕获的展品照片以及域适应和小样本学习问题的协议。(P. Koniusz, Y. Tas, H. Zhang, M. Harandi, F. Porikli, R. Zhang) [28/12/19 之前]
Osnabrück Synthetic Scalable Cube Dataset - 从 12 个不同视角捕获的 830000 个不同的立方体，用于 ANN 训练（Schöning、Behrens、Faion、Kheiri、Heidemann 和 Krumnack）[28/12/19 之前]
Princeton ModelNet - 127,915 个 CAD 模型，662 个对象类别，10 个带注释方向的类别（Wu、Song、Khosla、Yu、Zhang、Tang、Xiao）[28/12/19 之前]
PacMan 数据集- 用于可抓取炊具和陶器的 RGB 和 3D 合成和真实数据 (Jeremy Wyatt) [28/12/19 之前]
PACS (Photo Art Cartoon Sketch) - 用于测试域泛化的对象类别识别数据集：在一个域中的对象图像上训练的分类器在另一个域中识别对象的能力如何？(Da Li QMUL, T. Hospedales. Edinburgh/QMUL) [28/12/19 之前]
PASCAL 2007 挑战图像数据库（摩托车、汽车、奶牛）（PASCAL 联盟） [28/12/19 之前]
PASCAL 2008 Challange Image Database (PASCAL Consortium) [28/12/19前]
PASCAL 2009 Challange Image Database (PASCAL Consortium) [28/12/19前]
PASCAL 2010 Challange Image Database (PASCAL Consortium) [28/12/19前]
PASCAL 2011 Challange Image Database (PASCAL Consortium) [28/12/19前]
PASCAL 2012 Challange Image Database Category 分类、检测和分割以及静止图像动作分类（PASCAL Consortium） [28/12/19 之前]
PASCAL 图像数据库（摩托车、汽车、奶牛）（PASCAL 联盟） [28/12/19 之前]
PASCAL Parts dataset - PASCAL VOC 带有对象语义部分的分割注释 (Alan Yuille) [28/12/19 之前]
PASCAL-Context 数据集- 400 多个附加类别的注释 (Alan Yuille) [28/12/19 之前]
PASCAL 3D/Beyond PASCAL: A Benchmark for 3D Object Detection in the Wild - 12 类，3000 多张图像，每张都带有 3D 注释（Yuxiang、Roozbeh Mottaghi、Silvio Savarese）[28/12/19 之前]
POKER-DVS 数据库- “POKER-DVS 数据库由一组 131 个扑克点子符号组成，这些符号从 3 个独立的 DVS 录音中跟踪和提取，同时非常快速地浏览扑克牌。”（Serrano-Gotarredona，Linares-Barranco）[27/12 /2020]
Physics 101 dataset - 五个不同场景下的 101 个物体的视频数据集（Jiajun Wu、Joseph Lim、Hongyi Zhang、Josh Tenenbaum、Bill Freeman） [28/12/19 之前]
植物幼苗数据集- 12 种杂草的高分辨率图像。(奥胡斯大学) [28/12/19前]
雨滴检测- 使用具有场景上下文隔离的组合形状和显着性描述符改进雨滴检测 - 评估数据集 (Breckon, Toby P., Webster, Dereck D.) [28/12/19 之前]
ReferIt 数据集（IAPRTC-12 和 MS-COCO） - 来自 IAPRTC-12 和 MS-COCO 数据集（Kazemzadeh、Matten、Ordonez 和 Berg）的图像中对象的引用表达式 [28/12/19 之前]
roboflow Chess Pieces 对象检测数据集- 棋盘照片和各种棋子的数据集。所有照片都是从恒定角度拍摄的，三脚架在板的左侧。所有棋子的边界框都用边界框注释。292 张图像中有 2894 个标签 () [29/12/2020]
SAIL-VOS - 语义 Amodal 实例级视频对象分割 (SAIL-VOS) 数据集提供准确的地面实况注释，以开发推理对象被遮挡部分的方法，同时能够考虑时间信息（Hu、Chen、Hui、Huang， Schwing) [29/12/19]
SeaShips - 31455 张近岸船只的侧面图像，来自 7 个类别，从监控视频中提取 (Shao, Wu, Wang, Du, Li) [28/12/19 之前]
ShapeNet - 55 个常见对象类别的 3D 模型，具有约 51,000 个独特的 3D 模型。还有超过 270 个类别的 12K 模型。(普林斯顿、斯坦福和TTIC) [28/12/19 之前]
SHORT-100 数据集- 典型购物清单上的 100 种产品类别。它旨在对从使用手持或可穿戴相机获取的快照或视频中识别手持物体的算法的性能进行基准测试。(Jose Rivera-Rubio, Saad Idrees, Anil A. Bharath) [28/12/19 之前]
SkelNetOn - SkelNetOn 挑战围绕四个领域的形状理解构建：形状轮廓、RGB 图像、点云和参数表示。我们提供形状数据集、一些补充资源（例如，预处理/后处理、采样和数据增强脚本）以及四个类别的骨架提取测试平台。（学分） [29/12/2020]
SLOW-POKER-DVS 数据库- “SLOW-POKER-DVS 数据库由 4 个独立的 DVS 录音组成，同时在镜头前缓慢移动扑克符号约 3 分钟。”（Serrano-Gotarredona，Linares-Barranco）[27 /12/2020]
SOR3D - SOR3D 数据集包含超过 2 万个人机交互实例、14 种对象类型和 13 种对象可供性。(pyridon Thermos) [28/12/19 之前]
空间物体姿态估计挑战数据集- 12000 张用于训练的合成图像、2998 张类似的合成测试图像和 305 张真实图像（空间交会实验室 (SLAB)） [26/1/20]
斯坦福狗数据集- 斯坦福狗数据集包含来自世界各地的 120 种狗的图像。该数据集是使用 ImageNet 的图像和注释构建的，用于细粒度图像分类任务。(Aditya Khosla, Nityananda Jayadevaprakash, Bangpeng Yao, Li Fei-Fei, 斯坦福大学) [28/12/19前]
Stream-51 - 一个用于流式持续学习（分类）的数据集，由来自 51 个不同对象类别的时间相关图像和训练分布之外的其他评估类组成，以测试新颖性（开放集）识别（Roady、Hayes、Vaidya、Kanan）[ 26/12/2020]
SVHN：街景房屋号码数据集- 与 MNIST 类似，但标记数据要多一个数量级（超过 600,000 个数字图像），并且来自一个明显更难、未解决的现实世界问题（识别自然场景图像中的数字和数字）。(Netzer, Wang, Coates, Bissacco, Wu, Ng) [28/12/19 之前]
瑞典叶子数据集- 这些图像包含来自 15 个树类的叶子 (Oskar JO S?derkvist) [28/12/19 之前]
T-LESS - 用于无纹理对象的 6D 姿态估计的 RGB-D 数据集。(Tomas Hodan, Pavel Haluza, Stepan Obdrzalek, Jiri Matas, Manolis Lourakis, Xenophon Zabulis) [28/12/19 之前]
淘宝商品数据集- TCD 包含 800 个商品图像（连衣裙、牛仔裤、T 恤、鞋帽），用于来自淘宝网站商店的图像显着对象检测。(Keze Wang, Keyang Shi, Liang Lin, Chenglong Li) [28/12/19 之前]
腾讯开源多标签图片数据库——17,609,752个训练图片网址和88,739个验证图片网址，最多标注11,166个类别（吴、陈、范、张、侯、刘、张）[16/4/20]
tieredImageNet 数据集- ILSVRC-12 的更大子集，具有 608 个类（779,165 个图像），在 ImageNet 人工策划的层次结构中分为 34 个更高级别的节点。(Ren, Triantafillou, Ravi, Snell, Swersky, Tenenbaum, Larochelle, Zemel) [17/1/20]
ToolArtec 点云- 来自 Artec EVA 扫描仪的 50 个厨房工具 3D 扫描（层）。另请参阅ToolKinect - 使用 Kinect 2 和ToolWeb进行的 13 次扫描- 116 个合成家用工具点云，具有 5 个任务的质量和可供性groundtruth。(Paulo Abelha) [28/12/19 之前]
TUW 对象实例识别数据集- 对象实例及其 6DoF 姿态的注释，用于从各种角度观察到的杂乱室内场景，并表示为 Kinect RGB-D 点云（Thomas、A. Aldoma、M. Zillich、M. Vincze）[28 年前/ 12/19]
TUW 数据集- 来自 TUW 的几个 RGB-D Ground truth 和带注释的数据集。（John Folkesson 等人）[28/12/19 之前]
UAH 交通标志数据集（Arroyo 等）[28/12/19 之前]
UIUC汽车图像数据库（UIUC）【28/12/19前】
UIUC 3D 对象类别数据集（S. Savarese 和 L. Fei-Fei） [28/12/19 之前]
USPS 手写数字数据集- 7291 个训练和 2007 个测试图像。图像为 16*16 灰度像素（Hull） [28/12/19 之前]
VAIS - VAIS 包含同时获取的未注册的从码头获取的船舶的热图像和可见光图像，创建它是为了促进自主船舶的开发。(Mabel Zhang, Jean Choi, Michael Wolf, Kostas Daniilidis, Christopher Kanan) [28/12/19前]
Venezia 3D 杂物识别和分割(Emanuele Rodola) [28/12/19 之前]
Visual Attributes Dataset超过 500 个对象类（有生命的和无生命的）的视觉属性注释，它们都在 ImageNet 中表示。每个对象类都根据 636 个属性（例如，有毛皮、金属制成、圆形）的视觉属性进行注释。[28/12/19 之前]
Visual Hull Data Sets一组视觉船体数据集（Svetlana Lazebnik、Yasutaka Furukawa 和 Jean Ponce）[28/12/19 之前]
VOC-360 - 用于鱼眼图像（Fu、Bajic 和 Vaughan）中对象检测和分割的数据集 [29/12/19]
YCB 基准 – 对象和模型集- 5 个类别（食物、厨房、工具、形状、任务）中的 77 个对象，每个对象具有 600 个 RGBD 和高分辨率 RGB 图像、校准数据、分割掩码、网格模型（Calli、Dollar、Singh、 Walsman, Srinivasa, Abbeel) [28/12/19 之前]
YouTube-BoundingBoxes - 来自 23 个跨帧跟踪的对象类的 560 万个准确的人工注释 BB，来自 240,000 个 YouTube 视频，重点关注人物类（130 万个框）（Real、Shlens、Pan、Mazzocchi、Vanhoucke、Khan Kakarla 等人）[28/12/19 之前]

人（静态和动态），人体姿势

3D 关节体- 具有旋转和平移的关节体的 3D 重建。单摄像头，不同焦距。每个场景都可能有一个关节式身体在运动。包括四种数据集。包含的样本重建结果仅使用场景的四幅图像。(朴继勋教授) [28/12/19前]
BUFF 数据集- 大约 10,000 次对穿着衣服的人的扫描以及下面人的估计体型。扫描包含纹理，因此很容易生成合成视频/图像。(Zhang, Pujades, Black 和 Pons-Moll) [28/12/19 之前]
CAPE 数据集- 140K SMPL 对穿衣服的人进行 4D 扫描的 SMPL 网格注册，包括 15 个主题，~600 个运动序列，以及对衣服下真实身体形状的注册扫描（Ma、Yang、Ranjan、Pujades、Pons-Moll、Tang , 黑色) [28/12/2020]
CASR：骑自行车的手臂标志识别- 约 10 秒的小片段显示骑自行车的人执行手臂标志。这些视频是使用消费级相机获取的。注释了 219 个手臂标志动作。(方志杰, Antonio M. Lopez) [13/1/20]
动态动态- 超过 40K 4D 60fps 高分辨率扫描和非常准确注册的人物模型。扫描包含纹理，因此很容易生成合成视频/图像。(Pons-Moll, Romero, Mahmood and Black) [28/12/19 之前]
动态浮士德- 超过 40K 4D 60fps 的高分辨率人物扫描非常准确地注册。扫描包含纹理，因此很容易生成合成视频/图像。(Bogo、Romero、Pons-Moll 和 Black) [28/12/19 之前]
EHF 数据集- 一个主题的 100 个精选帧（+ 代码），穿着极简的衣服，表演涉及身体、手和脸的各种表现姿势。每帧包含全身 RGB 图像、检测到的 2D OpenPose 特征（身体、手、脸）、对象的 3D 扫描以及作为伪地面实况的 3D SMPL-X 网格（Pavlakos、Choutas、Ghorbani、Bolkart、 Osman, Tzionas, Black) [28/12/19 之前]
ExPose - 富有表现力的 3D 人类数据集。它包含约 32k 对 RGB 图像和 SMPL-X 人类（参数和网格）。它是通过在 LSP、LSP 扩展和 MPII 数据集上应用 SMPLify-X 并仔细整理结果以获得伪地面实况而创建的。该数据集用于训练 ExPose，这是一种从 RGB 图像预测富有表现力的 3D 人类的模型。(Choutas, Pavlakos, Bolkart, Tzionas, Black) [1/2/21]
扩展 Chictopia 数据集- 14K 图像 Chictopia 数据集，带有附加处理的注释（面部）和适合图像的 SMPL 身体模型。(Lassner, Pons-Moll 和 Gehler) [28/12/19 之前]
跌倒数据库- 该数据库包括跌倒和由两个人（person1 和 person2）进行的日常生活活动？每个人进行两次所有活动（CVL、Planinc Rainer、？Martin Kampel）[1/2/21]
电影中标记的帧 (FLIC) - 20928 帧标记为人体姿势（Sapp、Taskar）[28/12/19 之前]
GPA：几何姿势可供性数据集- 真实 3D 人与真实 3D 场景交互的数据集。8 个场景中 13 个主体的 300k 静态 RGB 帧，具有真实场景网格，运动捕捉脚本专注于主体与场景几何体之间的交互、人体动力学以及在场景几何体周围模拟人体动作。(王、陈、拉托尔、申、福克斯) [29/12/19]
GRAB - 动态全身抓取数据集。它包含 3D SMPL-X 人类序列（关节式身体 + 手 + 脸），与整个身体的刚性 3D 对象网格交互，例如用手举起杯子并使其与嘴唇接触喝水。我们用它来训练 GrabNet，这是一种预测 3D 手抓握 (MANO) 以获取看不见的 3D 对象形状的模型。(Taheri, Ghorbani, Black, Tzionas) [1/2/21]
身份保留跟踪- IPT（身份保留跟踪）数据集？由使用 Orbbec Astra 深度传感器记录的 10 个深度数据序列组成。(CVL,?Thomas Heitzinger,?Martin Kempel) [1/2/21]
室内骨骼跟踪数据集- 描述该数据库包含由华硕 Xtion pro 实时传感器结合 OpenNI 获得的骨骼跟踪信息。(CVL, Rainer Planinc,? Martin Kampel) [1/2/21]
KIDS 数据集- 一个包含 30 个高分辨率 3D 形状的集合，这些形状经历了近等距和非等距变形，具有点对点地面实况以及左右双边对称的地面实况。(Rodola, Rota Bulo, Windheuser, Vestner, Cremers) [28/12/19 之前]
Kinect2 人体姿势数据集 (K2HPD) - Kinect2 人体姿势数据集 (K2HPD) 包括大约 100K 深度图像，在具有挑战性的场景下具有各种人体姿势。（王克泽、梁琳、翟胜福、邓克东）【28/12/19前】
Leeds Sports Pose Dataset - 2000 个主要运动人士的姿势注释图像（Johnson、Everingham）[28/12/19 之前]
查看人员数据集- 50,000 幅图像，带有精心制作的逐像素注释，带有 19 个语义人体部位标签和带有 16 个关键点的 2D hpose。(龚、梁、张、申、林) [28/12/19前]
Manga109：漫画（漫画）数据集——109卷21000多页109卷21000多页（相泽清春）[29/12/19]
通过 RGB 网络摄像头的人体模型床上姿势数据集- 该床上姿势数据集是通过东北大学模拟病房中的常规网络摄像头收集的。（刘双军和莎拉·奥斯塔达巴斯，ACLab）[28/12/19之前]
Mannequin IRS 床内数据集- 该床内姿势数据集是通过我们在东北大学模拟病房中的红外选择性 (IRS) 系统收集的。（刘双军和莎拉·奥斯塔达巴斯，ACLab）[28/12/19之前]
MoPoTS-3D - 基于单目 RGB 方法的多人 3D 身体姿势基准，在室内和室外设置中有 20 个序列（用于信息学的 MPI）[28/12/19 之前]
MoVi：大型多功能人体运动和视频数据集- MoVi 是第一个包含来自大量受试者（Ghorbani、Mahdaviani、Thaler、Kording、Cook、Blohm、Troje）的同步姿势、身体网格和视频记录的人体运动数据集[27/12/2020]
MPI-INF-3DHP - 单人 3D 身体姿势数据集和评估基准，在广泛的活动中具有广泛的姿势覆盖范围，以及广泛的外观增强范围。多视图 RGB 帧可用于训练集，单目视图帧可用于测试集。(MPI For Informatics) [28/12/19 之前]
MPI MANO & SMPL+H 数据集- 统计模型 MANO（仅限手）和 SMPL+H（身体 + 手）的模型、4D 扫描和注册。对于 MANO，有 31 个对象执行多达 51 个姿势的约 2k 静态 3D 扫描。对于 SMPL+H，我们包含 11 个受试者的 39 个 4D 序列。(哈维尔·罗梅罗、迪米特里奥斯·齐奥纳斯和迈克尔·J·布莱克) [28/12/19 之前]
MPII 人体姿势数据集- 25K 图像，包含超过 40K 人的身体关节注释，410 项人类活动 {Andriluka、Pishchulin、Gehler、Schiele）[28/12/19 之前]
MPII 人体姿势数据集- MPII 人体姿势数据集是用于评估关节式人体姿势估计的事实上的标准基准。(Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, Bernt Schiele) [28/12/19 之前]
MuCo-3DHP - 由 MPI-INF-3DHP 数据集（MPI For Informatics）生成的具有 3D 姿势注释的复合多人 RGB 图像的大规模数据集 [28/12/19 之前]
MVOR：用于 2D 和 3D 人体姿势估计的多视图多人 RGB-D 手术室数据集- 在实际临床干预期间由 3 个 RGB-D 摄像机捕获的多视图图像 (Padoy) [28/12/19 之前]
相册中的人物- 带有来自 Flickr 的图像的社交媒体照片数据集，以及对人物头像及其身份的手动注释。(Ning Zhang and Manohar Paluri and Yaniv Taigman and Rob Fergus and Lubomir Bourdev) [28/12/19前]
人物快照数据集- 在固定摄像机前旋转的 24 个对象的单目视频。提供了分割形式和二维关节位置的注释。(Alldieck, Magnor, Xu, Theobalt, Pons-Moll) [28/12/19 之前]
个人照片集中的人物识别- 我们引入了三个更难的分割，用于评估和长期属性注释以及每张照片的时间戳元数据。（哦，Seong Joon 和 Benenson，Rodrigo 和 Fritz，Mario 和 Schiele，Bernt） [28/12/19 之前]
Pointing'04 ICPR Workshop Head Pose Image Database [28/12/19前]
姿势估计- 该数据集共有 155,530 张图像。这些图像是通过 CIDIS 成员在 4 个会话中的记录获得的。总共获得了 10 个视频，每个视频时长为 4 分钟。参与者被要求携带不同的衣服，以使图像多样化。在此之后，视频的帧以每秒 5 帧的速度分离。所有这些图像都是从俯视角度拍摄的。原始图像的分辨率为 1280x720 像素。(CIDIS) [28/12/19 之前]
PROX 数据集- 真实 3D 人与真实 3D 场景交互的数据集（+代码）。“Quantitative PROX”：1 个场景中 1 个主体的 180 个静态 RGB-D 帧，带有地面实况 SMPL-X 网格。“定性 PROX”：12 个场景中 20 个主体的 100K 动态 RGB-D 序列，带有伪真值 SMPL-X 网格。(Hassan, Choutas, Tzionas, Black) [28/12/19前]
RefGTA - 用于生成引用表达式的合成数据集，包括人类定位引用对象所需的时间。（田中干弘、板持孝之、成冈宪一、佐藤一郎、牛久义孝、原田达也）[1/2/21]
SHREC'16 Topological KIDS - 40 个高分辨率和低分辨率 3D 形状的集合，除了强大的拓扑伪影、自接触和网格粘合以及点对点地面实况外，还经历了近等距变形。(Lahner, Rodola) [28/12/19 之前]
SIZER - 一个数据集 3D 扫描、服装分割、标签和 SMPL+G 注册的 100 名受试者（~2000 次扫描）在 A 姿势（Tiwari、Pons-Moll）中的各种服装样式和尺寸 [27/12/2020]
社交距离数据集- 小组讨论中与会者的上半身检测、相关的语音活动检测真实情况（说话、不说话）以及从视频中提取的声学特征（M. Aghaei、M. Bustreo、Y. Wang , G. Bailo, P. Morerio, A. Del Bue) [1/2/21]
超现实- 60,000 个合成视频，人物的形状、质地、视角和姿势变化很大。（瓦罗尔、罗梅罗、马丁、马哈茂德、布莱克、拉普捷夫、施密德）【28/12/19 之前】
合成深度和热 (SDT) 数据集- 合成深度和热 (SDT) 数据集由 40k 合成和 8k 真实深度和热立体图像组成，描绘了室内环境中的人类行为。(CVL, Strohmayer Julian, Pramerdorfer Christopher, Kampel Martin) [1/2/21]
TNT 15 数据集- 由 10 个安装在四肢的惯性传感器 (IMU) 同步的多个视频序列。(von Marcard, Pons-Moll 和 Rosenhahn) [28/12/19 之前]
UC-3D 运动数据库- 可用数据类型包括高分辨率运动捕捉，使用来自 Xsens 的 MVN Suit 和 Microsoft Kinect RGB 和深度图像获取。（葡萄牙科英布拉系统与机器人研究所） [28/12/19 之前]
United People (UP) 数据集- 约 8,000 张带有关键点和前景分割注释以及 3D 身体模型拟合的图像。（拉斯纳、罗梅罗、基菲尔、博戈、布莱克、盖勒）【28/12/19前】
VGG 人体姿势估计数据集，包括 BBC 姿势（20 个带有重叠手语翻译器的视频）、扩展 BBC 姿势（72 个附加培训视频）、BBC 短姿势（5 个带有手语手语的一小时视频）和 ChaLearn 姿势（23 小时） 27 个人执行 20 个意大利手势的 Kinect 数据）。(Charles, Everingham, Pfister, Magee, Hogg, Simonyan, Zisserman) [28/12/19 之前]
VRLF：视觉唇读可行性- 用西班牙语录制的 24 位演讲者的视听语料库（Fernandez-Lopez、Martinez 和 Sukno）[28/12/19 之前]
xR-EgoPose - 从以自我为中心的角度进行 3D 人体姿势估计 (Denis Tome) [27/12/2020]

人员检测和跟踪数据库

3D KINECT Gender Walking 数据库（L. Igual、A. Lapedriza、R. Borràs 来自 UB、CVC 和 UOC，西班牙）[28/12/19 之前]
AAU VAP 三模态人物分割数据集- 使用深度、RGB 和热传感器（Palmero、Clapés、Bahnsen、Møgelmose、Moeslund、Escalera）捕获的人物检测和分割数据集 [28/12/19 之前]
空中步态数据集- 从空中（移动）平台（Perera、Law、Chahl）观察行走的人 [28/12/19 之前]
AGORASET：人群视频分析数据集（Nicolas Courty 等）[28/12/19 之前]
CASIA步态数据库（中国科学院） [28/12/19前]
CAVIAR 项目视频序列与跟踪和行为真实情况（CAVIAR 团队/爱丁堡大学 - EC 项目 IST-2001-37540）[28/12/19 之前]
CEPDOF：从高架鱼眼图像中进行人物检测的挑战性事件- 8 个 1kx1k 或 2kx2k 高架鱼眼 RGB 视频（超过 25k 帧）在小教室中显示多达 13 人，记录在各种具有挑战性的场景（包括无光）中，用边界框注释每个人，包括角度（Tezcan、Duan、Ishwar、Konrad） [27/12/2020]
CMU Panoptic Studio Dataset - 由 500 多个同步摄像机捕获的多人社交互动数据集，具有 3D 全身骨架和校准数据。(H. Joo, T. Simon, Y. Sheikh) [28/12/19 之前]
COCO-WholeBody - 大规模二维全身姿态估计数据集（Jin, Xu, Xu, Wang, Liu, Qian, Ouyang, Luo） [26/12/2020]
CRL-Person - 第一个用于生物识别的持续学习基准，包含 7k 身份的 90k 图像（Zhao、Tang、Chen、Bilen、Zhao）[30/12/2020]
CUHK Crowd Dataset - 来自 215 个拥挤场景（Shao、Loy 和 Wang）的 474 个视频片段 [28/12/19 之前]
CUHK01 Dataset : Person re-id dataset with 3, 884 images of 972行人 (Rui Zhao et al) [28/12/19 之前]
CUHK02 数据集：具有五个相机视图设置的人员重新识别数据集。（赵瑞等）【28/12/19前】
CUHK03 数据集：具有 1,360 个行人的 13,164 张图像的行人重新识别数据集（Rui Zhao 等人）[28/12/19 之前]
加州理工学院行人数据集（P. Dollar、C. Wojek、B. Schiele 和 P. Perona）[28/12/19 之前]
CLOTH3D - 具有高质量渲染和丰富布料动态的 3D 穿着人类的 RGB 视频。8K 不同的序列、体型和服装。(Bertiche, Madadi, Escalera) [26/12/2020]
戴姆勒行人检测基准21790 张图像，包含 56492 个行人和空场景。（DM Gavrila 等人）[28/12/19 之前]
Fusion 的数据集（彩色和红外线）一系列彩色和红外线图像，从不同环境条件下的平行两相机设置捕获。（胡安·塞拉诺-库尔达、安东尼奥·费尔南德斯-卡瓦列罗、玛丽亚·T.洛佩兹）[28/12/19 之前]
DHP19 - DAVIS 人体姿势估计和动作识别- 数据集包含来自 4 个 DAVIS346 摄像机的同步记录，带有来自 17 个重复运动的受试者的 Vicon 标记地面实况。（巴尔格里斯特大学医院，神经信息学研究所，苏黎世联邦理工学院和苏黎世联邦理工学院）[27/12/2020 ]
驾驶员监控视频数据集（RobeSafe + Jesus Nuevo-Chiquero） [28/12/19 之前]
DukeMTMC：杜克多目标多相机跟踪数据集- 8 个相机，85 分钟，2m 帧，2000 人的视频（Ergys Ristani、Francesco Solera、Roger S. Zou、Rita Cucchiara、Carlo Tomasi）[28/12/19 之前]
爱丁堡高架摄像机人员跟踪数据集（Bob Fisher、Bashia Majecka、Gurkirt Singh、Rowland Sillito）[28/12/19 之前]
GVVPerfcapEva - 人体形状和表现捕捉数据的存储库，包括全身骨骼、手部跟踪、身体形状、面部表现、交互（Christian Theobalt）[28/12/19 之前]
HABBOF：来自高架鱼眼相机的人类对齐边界框- 四个 2kx2k 高架鱼眼 RGB 视频（近 6k 帧）在会议室和实验室中最多显示 4 人，每个人的边界框注释，包括角度（Tezcan、Li、Ishwar , 康拉德) [27/12/2020]
27 种人类属性的HAT数据库 (Gaurav Sharma, Frederic Jurie) [28/12/19 之前]
即时数据集- 此数据集旨在估计个人关系。（小楚等）【28/12/19前】
Inria Dressed human body in motion benchmark - 包含不同主题、动作和服装风格的 3D 运动序列的基准，允许定量测量体型估计的准确性。（杨金龙、Jean-Sbastien Franco、Franck H=E9troy-Wheeler、Stefanie Wuhrer）【28/12/19前】
INRIA 人物数据集(Navneet Dalal) [28/12/19 之前]
IU ShareView - IU ShareView 数据集由 9 组同步（两个第一人称）视频组成，共有 2,654 个带注释的人物实例的 1,227 个像素级地面实况分割图。(徐明泽, 范陈友, 王雨辰, Michael S. Ryoo, David J. Crandall) [28/12/19前]
Izmir - 用于人类和汽车检测的全向和全景图像数据集（带注释）（Yalin Bastanlar）[28/12/19 之前]
自动驾驶中的联合注意 (JAAD) - 该数据集包括行人和汽车的实例，主要用于自动驾驶环境中的行为研究和检测。(Iuliia Kotseruba, Amir Rasouli 和 John K. Tsotsos) [28/12/19 之前]
JTL Stereo Tacking Dataset for Person Follows Robots - 11 个不同的室内和室外场所，用于机器人在具有挑战性的情况下跟随人的任务（Chen、Sahdev、Tsotsos）[28/12/19 之前]
KAIST 多光谱行人检测基准- 95k 色热对（640x480，20Hz）图像，具有 103,128 个密集注释和 1,182 个独特的行人（Hwang、Park、Kim、Choi、Kweon）[28/12/19 之前]
MAHNOB：MHI-Mimicry 数据库- 一个 2 人、多摄像头和麦克风数据库，用于研究人与人交互场景中的模仿。(Sun, Lichtenauer, Valstar, Nijholt, and Pantic) [28/12/19 之前]
MIT CBCL 行人数据（生物与计算学习中心）【28/12/19 之前】
MPI DYNA - 运动中的动态人体形状模型 (Max Planck Tubingen) [28/12/19 之前]
MPI FAUST数据集包含 300 个真实、高分辨率人体扫描的数据集，具有自动计算的地面实况对应关系 (Max Planck Tubingen) [28/12/19 之前]
MPI JHMDB 数据集- 关节标注的人体运动数据库 - 21 个动作，928 个剪辑，33183 帧（Jhuang、Gall、Zuffi、Schmid 和 Black） [28/12/19 之前]
MPI MOSH运动和来自标记的形状捕获。MOCAP 数据、3D 形状网格、3D 高分辨率扫描。(Max Planck Tubingen) [28/12/19 之前]
MVHAUS-PI - 多视图人机交互识别数据集（Saeid 等人）[28/12/19 之前]
Market-1501 数据集- 来自多达 6 个摄像头的 1,501 个身份的 32,668 个带注释的边界框（Liang Zheng 等人）[28/12/19 之前]
摩德纳和雷焦艾米利亚第一人称头部运动视频（摩德纳和雷焦艾米利亚大学）[28/12/19 之前]
日常生活的多模式活动——包括视频、音频、生理、睡眠、运动和插头传感器。(Alexia Briasouli) [28/12/19 之前]
Multiple Object Tracking Benchmark - 一组包含真实情况的数据集，以及一个性能排名表（ETHZ，U. Adelaide，TU Darmstadt）[28/12/19 之前]
多光谱可见光-NIR视频序列- 带注释的多光谱视频，可见光 + NIR（LE2I，勃艮第大学）[28/12/19 之前]
纽约大学多目标跟踪基准（Konrad Schindler 等人）[28/12/19 之前]
“用于行人检测、动作识别和跌倒检测的神经形态视觉数据集” - “用 DAVIS346redColor 记录的用于行人检测、动作识别和跌倒检测的神经形态视觉数据集。”（Miao、Chen、Ning、Zi、Ren、Bing、Knoll） [27/12/2020]
遮挡铰接人体数据集- 遮挡下的身体姿势提取和跟踪，总共 6 个 RGB-D 序列（3500 帧），一个、两个和三个用户，基于标记的地面实况数据。(Markos Sigalas, Maria Pateraki, Panos Trahanias) [28/12/19 之前]
OxUva - 一个大规模的长期跟踪数据集，由 366 个总时长约 14 小时的长视频组成，具有单独的开发（公共注释）和测试集（隐藏注释），具有目标对象消失和连续属性。(Jack Valmadre, Luca Bertinetto, Joao F. Henriques, Ran Tao, Andrea Vedaldi, Arnold Smeulders, Philip Torr, Efstratios Gavves) [28/12/19 之前]
OU-ISIR 步态数据库- 六个基于视频的步态数据集、两个基于惯性传感器的步态数据集和一个与步态相关的生物特征评分数据集。（牧原泰）【28/12/19 之前】
PARSE 数据集附加数据- 面部表情、凝视方向和性别（Antol、Zitnick、Parikh）[28/12/19 之前]
关节体的 PARSE 数据集- 300 张人和马的图像 (Ramanan) [28/12/19 之前]
PathTrack 数据集：一个大规模的 MOT 数据集- PathTrack 是一个大规模的多目标跟踪数据集，包含 720 个序列中超过 15,000 个人的轨迹。（圣地亚哥·马恩、迈克尔·吉格利、戴登欣、吕克·文古尔）[28/12/19前]
PDbm：人物检测基准存储库- 真实序列、手动注释的人物检测ground truth和完整的评估框架（Garc??a-Mart??n、Mart??nez、Besc??s）[28/12/19之前]
PDds：人员检测数据集- 几个不同复杂程度的带注释的监视序列（Garc??a-Mart??n、Mart??nez、Besc??s）[28/12/19 之前]
PETS 2009 Crowd Challange 数据集(Reading University & James Ferryman) [28/12/19 之前]
PETS 2009 年冬季研讨会数据（雷丁大学 & James Ferryman） [28/12/19 之前]
PETS：2015 年跟踪和监视性能评估（雷丁大学 & James Ferryman） [28/12/19 之前]
PETS：2015 年跟踪和监视性能评估（雷丁大学和 Luis Patino） [28/12/19 之前]
PETS 2016 数据集——多摄像头（包括热像仪）视频记录人类在静止车辆和船只周围的行为（Thomas Cane）[28/12/19 之前]
PIROPO - 室内房间里的人，配备透视和全向摄像头，超过 100,000 个带注释的帧（GTI-UPM，西班牙）[28/12/19 之前]
人物-艺术- 一个包含照片和艺术作品中标记人物的数据库（吴奇和蔡红平）[28/12/19 之前]
Photo-Art-50 - 包含在照片和艺术品中注释的 50 个对象类的数据库（吴奇和蔡红平）[28/12/19 之前]
基于像素的变化检测基准数据集（Goyette 等）[28/12/19 之前]
Precarious Dataset - 异常人检测数据集（黄） [28/12/19之前]
RAID - 室内-室外数据集的重新识别：43 个人、4 个摄像头、6920 张图像（Abir Das 等人）[28/12/19 之前]
RPIfield - 包含 4108 个带有时间戳的人物图像的人员重新识别数据集。(孟正, Srikrishna Karanam, Richard J. Radke) [28/12/19前]
新加坡海事数据集- 可见范围视频和红外视频。(Dilip K. Prasad) [28/12/19 之前]
SLP（同时收集的多模态躺姿） - 床上姿势的大规模数据集包括：2 个数据收集设置：(a) 医院设置：7 名参与者，以及 (b) 家庭设置：102 名参与者（29 名女性，年龄范围： 20-40）。4 种成像方式：RGB（常规网络摄像头）、IR（FLIR LWIR 摄像头）、DEPTH (Kinect v2) 和压力图（Tekscan 压力传感图）。3 覆盖条件：揭开、床单和毯子。带有 14 个关节的完整标记姿势。（奥斯塔达巴斯和刘）[2/1/20]
SYNTHIA - 用于训练自动驾驶汽车的大型虚拟世界图像集（约半百万）。(计算机视觉中心ADAS组) [28/12/19之前]
Shinpuhkan 2014 - 一个人员重新识别数据集，包含 22,000 张由 16 个摄像头拍摄的 24 个人的图像。(Yasutomo Kawanishi et al.) [28/12/19 之前]
Stanford Structured Group Discovery dataset - Discovering Groups of People in Images (W. Choi et al) [Before 28/12/19]
TIDOS：用于基于门的占用感应的热图像- 六个低分辨率 (32x24) 热序列，由安装在房间两扇门上方的传感器捕获的超过 100k 帧以计算人数，并标注一个人的进出时间（Cokbas， Ishwar, Konrad) [27/12/2020]
TrackingNet - 用于野外跟踪的大规模数据集：用于训练的 30k 多个带注释的序列，用于测试、评估服务器和排行榜的 500 多个隔离序列用于公平排名。(Matthias Muller, Adel Bibi, Silvio Giancola, Salman Al-Subaihi 和 Bernard Ghanem) [28/12/19 之前]
Transient Biometrics Nails Dataset V01 (Igor Barros Barbosa) [28/12/19 之前]
Temple Color 128 - Color Tracking Benchmark - Encoding Color Information for Visual Tracking (P. Liang, E. Blasch, H. Ling) [28/12/19 之前]
来自音频、图像和深度 (GAID) 数据库的 TUM 步态- 包含 305 个对象（Babaee、Hofmann、Geiger、Bachmann、Schuller、Rigoll）的跟踪 RGB 视频、跟踪深度视频和音频 [28/12/19 之前]
TVPR（顶视图人员重新识别）数据集- 在顶视图配置中使用 RGB-D 摄像头进行人员重新识别：室内 23 个会话，100 人，8 天（Liciotti、Paolanti、Frontoni、Mancini 和 Zingaretti）[之前28/12/19]
UCLA Aerial Event Dataset - 航拍视频中的人类活动，带有人、物体、社会群体、活动和角色的注释（Shu、Xie、Rothrock、Todorovic 和 Zhu）[28/12/19 之前]
佛罗里达州中部大学 - 人群数据集(Saad Ali) [28/12/19 之前]
佛罗里达州中部大学 - 人群流分割数据集(Saad Ali) [28/12/19 之前]
UTA-RLDD - UTA 真实生活睡意检测数据集：30 小时 60 个主题的 RGB 视频，用于多阶段和逼真的睡意检测（Ghoddoosian、Galib、Athitsos）[26/12/2020]
VIPeR：视点不变行人识别- 在不同光照条件下从任意视点拍摄的 632 对行人图像。(Gray, Brennan, and Tao) [28/12/19 之前]
视觉对象跟踪挑战数据集- VOT 数据集是在单目标短期视觉对象跟踪挑战中使用的完全注释的视觉对象跟踪数据集的集合。（VOT委员会）【28/12/19前】
WIDER Attribute Dataset - WIDER Attribute 是一个大规模的人类属性数据集，包含 13789 张图像，属于 30 个场景类别，以及 57524 个人类边界框，每个边界框用 14 个二进制属性进行注释。（李、以宁与黄、陈与洛、陈变与唐、肖欧）【28/12/19前】
WUds: Wheelchair Users Dataset - 轮椅使用者检测数据，扩展人员检测，提供更通用的解决方案来检测独立和辅助生活、医院、医疗中心和老年住宅（Mart??n-Nieto、Garc? ?a-Mart??n, Mart??nez) [28/12/19 之前]
xR-EgoPose - 从以自我为中心的角度进行 3D 人体姿势估计的逼真合成数据集（Tome、Peluse、Agapito 和 Badino） [4/1/20]
YouTube-BoundingBoxes - 来自 23 个跨帧跟踪的对象类的 560 万个准确的人工注释 BB，来自 240,000 个 YouTube 视频，重点关注人物类（130 万个框）（Real、Shlens、Pan、Mazzocchi、Vanhoucke、Khan Kakarla 等人）[28/12/19 之前]

遥感

用于屋顶分割的航空影像 (AIRS) - 覆盖 457 平方公里的正射校正航空影像，其中有超过 220,000 座建筑物用于屋顶分割。(王磊, 陈琦) [28/12/19前]
AIDER：用于紧急响应应用的航空图像数据库- 四种灾害事件的 RGB 图像：火灾/烟雾、洪水、倒塌的建筑物/瓦砾和交通事故，以及不表示存在灾难的正常等级。用于无人机的航空遥感和分类应用 (Kyrkou) [26/12/2020]
巴西塞拉多热带稀树草原场景数据集- 由 RapidEye 传感器拍摄的用于巴西塞拉多热带稀树草原植被分类的 IR-RG 场景的组成。(K. Nogueira, JA dos Santos, T. Fornazari, TS Freire, LP Morellato, R. da S. Torres) [28/12/19 之前]
巴西咖啡场景数据集- 由 SPOT 传感器拍摄的 IR-RG 场景组成，用于识别巴西山区的咖啡作物。(OAB Penatti, K. Nogueira, JA dos Santos。) [28/12/19 之前]
从 IKONOS (1 m) 和 QuickBird (60 cm)(Ali Ozgun Ok 和 Caglar Senaras) 获取的建筑检测基准-14 幅图像 [28/12/19 之前]
CBERS-2B、Landsat 5 TM、Geoeye、Ikonos-2 MS 和 ALOS-PALSAR - 使用光学图像的土地覆盖分类（D. Osaku 等人）[28/12/19 之前]
Data Fusion Contest 2015 (Zeebruges) - 该数据集提供了一个 RGB 航空数据集（5cm）和一个位于 Zeebruges（比利时）港口的激光雷达点云（65pts/m2）。它还提供了源自点云的 DSM 和七个 10000 x 10000 像素图块中五个图块的语义分割基本事实。评估服务器用于评估其他两个图块上的结果。（图像分析与数据融合技术委员会，IEEE地球科学，遥感学会）【28/12/19前】
2017年数据融合竞赛- 该数据集为全球九个城市提供卫星（Landsat、Sentinel 2）和矢量 GIS 图层（例如建筑物和道路足迹）。任务是在给定不同分辨率和特征类型的数据的情况下，预测对 100m 预测网格中的气候模型有用的土地利用类别。5 个城市带有标签，另外 4 个城市被隐藏以在评估服务器上评分。（图像分析与数据融合技术委员会，IEEE地球科学，遥感学会）【28/12/19前】
deepGlobe 挑战- 该数据集包括三个挑战，道路提取、建筑物检测和土地覆盖的语义分割。提供了来自 Digital Globe（RGB，50 厘米分辨率）的一系列卫星图像和全球多个国家/地区的标签。结果在 CVPR 2018 的 DeepGlobe 研讨会上公布。 (Facebook, Digital Globe) [28/12/19 之前]
DeepGlobe 卫星图像理解挑战- 卫星图像上三个深度学习任务的数据集和评估平台：道路提取、建筑物检测和土地类型分类。(Demir, Ilke and Koperski, Krzysztof and Lindenbaum, David and Pang, Guan and Huang, Jing and Basu, Saikat and Hughes, Forest and Tuia, Devis and Raskar, Ramesh) [28/12/19 之前]
DOTA - 2806张大型航拍图，188,282张，超过15个类别（夏、白、丁、朱、贝隆吉、罗、达特库、佩利洛、张） [28/12/19之前]
DublinCity：带注释的 LiDAR 点云及其应用- 都柏林市中心（Zolanvari、Ruano、Rana、Cummins、da Silva、Rahbar、Smolic）的带注释（13 个标签）航空激光雷达扫描 [28/12/19 之前]
EORSSD: Extended Optical Remote Sensing Saliency Detection dataset - 光学遥感图像中的显着物体检测 (Zhang, Cong, Li, Cheng, Fang, Cao, Zhao, Kwong) [27/12/2020]
F3 相- 荷兰 F3 区块的全注释 3D 地质模型，用于相分类基准（Yazeed Alaudah 和 Patrycja Micha?owicz 以及 Motaz Alfarraj 和 Ghassan AlRegib）[1/2/21]
FORTH 多光谱成像 (MSI) 数据集- 用于多光谱成像 (MSI) 的 5 个数据集，用地面实况数据 (Polykarpos Karamaoynas) 进行注释 [28/12/19 之前]
Furnas 和 Tiete - 沉积物产量分类（Pisani et al.） [28/12/19 之前]
H2OPM 图像配准- H2OPM 图像配准数据集是用于评估（分组）配准方法的数据集。(CVL、赞巴尼尼、塞巴斯蒂安) [1/2/21]
HSRC - 用于船舶识别的高分辨率光学卫星图像数据集。1061船舶3个子类级别（刘，元，翁，杨）的图像[28/12/19之前]
ISPRS 2D 语义标记- 高度模型和地面采样距离为 5 厘米的真实正射图像已在德国波茨坦市上空准备就绪（Franz Rottensteiner、Gunho Sohn、Markus Gerke、Jan D. Wegner）[28/12 之前/ 19]
ISPRS 3D 语义标注- 九类机载激光扫描数据（Franz Rottensteiner、Gunho Sohn、Markus Gerke、Jan D. Wegner）[28/12/19 之前]
Inria 航空影像标记数据集- 美国和奥地利城市上空的 9000 平方公里彩色航空影像。(Emmanuel Maggiori, Yuliya Tarabalka, Guillaume Charpiat, Pierre Alliez。) [28/12/19 之前]
Lampert's Spectrogram Analysis - 从时间序列数据派生的被动声纳频谱图图像，这些频谱图是从水下海洋记录中螺旋桨和发动机机械辐射的声能记录中生成的。(Thomas Lampert) [28/12/19 之前]
迁移聚集地震结构的大型北海数据集 -迁移聚集地震结构的大型北海数据集（Y. Alaudah、M. Alfarraj 和 G. Al Regib） [1/2/21]
林雪平热红外数据集- LTIR 数据集是用于评估短期单目标 (STSO) 跟踪的热红外数据集（林雪平大学） [28/12/19 之前]
MASATI: MAritime SAtellite Imagery dataset - MASATI 是由光学航空影像组成的数据集，其中包含 6212 个样本，这些样本来自 Microsoft Bing Maps。它们被标记并分为7类海洋场景：陆地、海岸、海洋、海岸-船、海-船、海多船、海-船。（阿利坎特大学）【28/12/19前】
MUUFL Gulfport 高光谱和 LiDAR 数据集- 南密西西比大学 Gulfpark 校园内共同注册的航空高光谱和激光雷达数据，其中包含多个子像素目标。(Gader, Zare, Close, Aitken, Tuell) [28/12/19 之前]
NWPU-RESISC45 - 用于遥感图像场景分类的大规模基准数据集，包含 45 个场景类覆盖的 31500 张图像。(Cheng, Han, Lu) [28/12/19 之前]
NWPU VHR-10 数据集- 800 张高分辨率卫星图像，10 类（飞机、轮船、储罐、棒球场、网球场、篮球场、地面田径场、港口、桥梁和车辆）（Cheng、Han、Zhou、Guo） [28/12/19 之前]
溢油检测数据集- 一组 SAR 图像及其相应的地面实况掩码，描述溢油和其他相关类别（例如相似物、船舶等），用于溢油检测/分割。(Krestenitis, M., Orfanidis, G., Ioannidis, K., Avgerinakis, K., Vrochidis, S., Kompatsiaris, I.) [1/2/21]
PaCaBa - Parking Cars Barcelona Dataset - WorldView-3 立体卫星图像数据集，带有巴塞罗那市（Zambanini、Loghin、Pfeifer、Soley、Sablatnig）的停车标记 [27/12/2020]
RIT-18 - 用于语义分割的高分辨率多光谱数据集。(Ronald Kemker, Carl Salvaggio, Christopher Kanan) [28/12/19 之前]
SAR 船舶数据集- 43 幅合成孔径雷达图像（Schwegmann、Kleynhans、Salmon、Mdakane、Meyer）[28/12/19 之前]
SatUAV - 无人机采集的航拍照片及相应卫星影像（配对影像），包括苏州、昆山、威海、神农架、无锡、伯明翰、考文垂、利物浦、峰区、梅利沙臣、雷嫩、洛桑等13个亚洲和欧洲地区的卫星影像（配对影像），勒布尔歇机场（巴黎）。其中，Merlischachen、Renens、洛桑、勒布尔热机场（巴黎）的航拍原图属于senseFly（雪念、梁牛、红贤斌、李振、Larissa Hoffaeller、Christina P?pper）[1/2/21]
Semantic Drone Dataset - 20 栋房屋，从最低点（鸟瞰图）获得，距离地面 5 到 30 米。400 张公共和 200 张私人高分辨率图像，6000x4000px (24Mpx)。[28/12/19 之前]
uav-search-and-rescue - 一个人员检测数据集，专门为具有计算机视觉的无人机进行搜索和救援操作而设计。由于数据集较小，目前仅用于测试和评估目的（Castellano；Carone；Scigliuto；Vessio）[28/12/2020]
UC Merced Land Use Dataset 21 类土地利用图像数据集，每类 100 张图像，主要是城市，256x256 分辨率，1 英尺像素（Yang 和 Newsam）[28/12/19 之前]
UCF-CrossView Dataset: Cross-View Image Matching for Geo-localization in Urban Environments - 用于交叉视图图像地理定位的街景和鸟瞰图图像的新数据集。（中佛罗里达大学计算机视觉研究中心）【28/12/19前】
Zurich Summer dataset - t 用于城市场景的超高分辨率卫星图像的语义分割，具有不完整的地面实况（Michele Volpi 和 Vitto Ferrari。）[28/12/19 之前]
苏黎世城市微型飞行器数据集- 苏黎世 2 公里的时间同步航拍高分辨率图像，以及相关的其他数据 (Majdik、Till、Scaramuzza) [28/12/19 之前]

机器人

DISC - 用于模拟灾难场景的大规模虚拟数据集（Jeon、Im、Lee、Choi、Hebert、Kweon） [28/12/2020]
爱丁堡厨房用具数据库- 20 类厨房用具的 897 张原始和二值图像，是训练未来家庭辅助机器人的资源 (D. Fullerton, A. Goel, RB Fisher) [28/12/19 之前]
事件相机数据集- 这展示了世界上第一个用于高速机器人的带有基于事件的相机的数据集（E. Mueggler、H. Rebecq、G. Gallego、T. Delbruck、D. Scaramuzza）[28/12 之前/19]
改进的 3D 稀疏映射用于低成本全向机器人运动的高性能结构 - 评估数据集- 研究论文中使用的数据集 doi:10.1109/ICIP.2015.7351744（Breckon、Toby P.、Cavestany、Pedro）[28/12 之前/19]
用于移动机器人本地化的室内场所识别数据集- 该数据集包含由 2 个不同机器人（virtualMe 和先锋）构建的 17 个不同场所（Raghavender Sahdev，John K. Tsotsos。）[28/12/19 之前]
JHU CoSTAR Block Stacking Dataset - 机器人通过实时 RGBD 数据与 5.1 cm 彩色块动态交互以完成订单履行风格的块堆叠任务，在深度学习、神经网络、强化学习中应用超过 12k 次堆叠尝试和 2m 帧，和更多。(亨特、耆那教、林、帕克斯顿、海格) [27/12/2020]
JTL Stereo Tacking Dataset for Person Follows Robots - 11 个不同的室内和室外场所，用于机器人在具有挑战性的情况下跟随人的任务（Chen、Sahdev、Tsotsos）[28/12/19 之前]
元房间- RGB-D 数据由 28 个对齐的深度相机图像组成，这些图像是通过让机器人前往特定位置并以各种倾斜度进行 360 度平移而收集的。（John Folkesson 等人）[28/12/19 之前]
PanoNavi dataset - 用于机器人导航的全景数据集，由 5 个持续约 1 小时的视频组成。（凌言然）【28/12/19前】
PanoraMIS - 使用相机（折反射、双鱼眼）在机器人（轮式、空中和手臂）上获得的数千张超宽视野图像，具有准确的 3D 位置和方向地面实况（机器人编码器、GNSS、IMU）室内和室外（ Benseddik、Morbidi、Caron) [12/08/20]
PRED18 - 可视化捕食者/猎物数据集- 数据集包含来自安装在计算机控制机器人（捕食者）上的 DAVIS240 摄像机的记录，该机器人追逐并试图捕捉另一个人类控制的机器人（猎物）。（Moeys，Delbruck，神经信息学研究所, UZH 和 ETH Zurich) [27/12/2020]
Robotic 3D Scan Repository - 来自场景机器人实验的 3D 点云（Osnabruck 和 Jacobs 大学）[28/12/19 之前]
Swiss3DCities - 三个点密度级别的城市航空摄影测量 3D 点云，以及来自瑞士三个城市的每点语义标签 ( Nomoko AG ) [30/12/2020]
使用迭代方法解决机器人世界手眼校准问题- 这些数据集是为校准机器人相机系统而生成的。(Amy Tabb) [28/12/19 之前]
ViDRILO - ViDRILO 是一个数据集，包含 5 个带注释的 RGB-D 图像序列，这些图像是在具有挑战性的照明条件下在两座办公楼中使用移动机器人获取的。（Miguel Cazorla、J. Martinez-Gomez、M. Cazorla、I. Garcia-Varea 和 V. Morell。）[28/12/19 之前]
Witham Wharf - 对于林肯大学在大约 10 天内每 10 分钟由机器人收集的八个位置的 RGB-D。（John Folkesson 等人）[28/12/19 之前]

场景或地点、场景分割或分类

2017年3DRMS 挑战数据集- 真实花园立体图像对，由小型移动机器人（TrimBot2020 联盟）捕获的相机姿势和语义注释 [26/2/20]
2018年3DRMS 挑战数据集- 具有深度、相机姿势和语义注释的合成花园立体图像对（TrimBot2020 联盟） [26/2/20]
背景模型挑战- 提供用于测试背景减法算法的视频（A. Vacavant、T. Chateau、A. Wilhelm、L. Lequievre）[1/2/21]
巴塞罗那- 15,150 张图像，巴塞罗那（Tighe 和 Lazebnik）的城市景观 [28/12/19 之前]
Cross-modal Landmark Identification Benchmark - 在不同天气条件下进行的地标识别基准，包括在多种天气条件下拍摄的 17 张地标图像，例如，晴天、多云、下雪和日落。(延世大学) [28/12/19之前]
CMU 视觉定位数据集- 使用配备 IMU、GPS、INS、激光雷达和相机的 Navlab 11 在一年内收集的数据集。(Hernan Badino, Daniel Huber 和 Takeo Kanade) [28/12/19 之前]
COLD（ COsy Localization Database）——地方定位（Ullah、Pronobis、Caputo、Luo、Jensfelt）[28/12/19之前]
DAVIS：视频对象分割数据集 2016 -视频对象分割的基准数据集和评估方法（F. Perazzi、J. Pont-Tuset、B. McWilliams、L. Van Gool、M. Gross 和 A. Sorkine-Hornung）[ 28/12/19 之前]
DAVIS：视频对象分割数据集 2017 - 2017 年 DAVIS 视频对象分割挑战（J. Pont-Tuset、F. Perazzi、S. Caelles、P. Arbelaez、A. Sorkine-Hornung 和 L. Van Gool）[28 岁之前/12/19]
EDEN：封闭式 garDEN 场景的多模态合成数据集- 从 100 多个花园模型中捕获的超过 300K 图像。每张图像都用各种低级/高级视觉模式进行注释，包括语义分割、深度、表面法线、固有颜色和光流（Le、Das、Mensink、Kaaoglu、Gevers）[7/1/2021]
EDUB-Seg - 用于事件分割的以自我为中心的数据集。（Mariella Dimiccoli、Marc Bolaños、Estefania Talavera、Maedeh Aghaei、Stavri G. Nikolov 和 Petia Radeva。）[28/12/19 之前]
2013年欧洲洪水- 中欧洪水事件的 3,710 张图像，注释了与 3 个图像检索任务（多标签）和重要图像区域的相关性。(Friedrich Schiller University Jena, Deutsches GeoForschungsZentrum Potsdam) [28/12/19 之前]
Fieldsafe - 用于农业障碍检测的多模式数据集。(奥胡斯大学) [28/12/19前]
十五个场景类别- 十五个自然场景类别的数据集。（李飞飞和奥德奥利瓦）【28/12/19前】
FIGRIM（细粒度图像记忆数据集） - 来自 SUN 数据库的图像子集，用于人类记忆实验，并与记忆分数一起提供。(Bylinskii, Isola, Bainbridge, Torralba, Oliva) [28/12/19 之前]
Fukuoka Datasets - 我们提供了几个用于地点分类的多模态 3D 数据集。除了 3D 深度信息外，还包括 RGB 或反射图像等其他模式（OM Mozos、K. Nakashima、H. Jung、Y. Iwashita 和 R. Kurazume，）[1/2/21]
几何上下文 - 场景解释图像(Derek Hoiem) [28/12/19 之前]
GLDv2：Google Landmarks 数据集 v2 - 4,132,914 张训练图像、761,757 张索引图像和 117,577 张测试图像，其中标注了代表人造和自然地标的标签（Weyand、Araujo、Cao、Sim）[16/4/20]
HyKo：用于场景理解的光谱数据集- HyKo 数据集是使用紧凑、低成本的快照镶嵌 (SSM) 成像相机捕获的，它们能够在从移动车辆记录的一个镜头中捕获整个光谱立方体，从而实现高光谱场景分析用于道路场景理解。（科布伦茨-朗道大学 Active Vision Group） [28/12/19 之前]
iNaturalist 物种分类和检测数据集- iNaturalist 2017 物种分类和检测数据集由公民科学家收集和注释，包含来自 5,000 多种不同植物和动物物种的 859,000 张图像。(加州理工) [28/12/19 之前]
Incidents - 用于检测野外自然灾害、破坏和事件的数据集 - 由人类注释的以场景为中心的大规模图像数据集，涵盖 43 个灾难或事件类别和 49 个地点类别（Weber、Marzo、Papadopoulos、Biswas、拉佩德里扎、奥弗里、伊姆兰、托拉尔巴) [27/12fg/2020]
用于移动机器人本地化的室内场所识别数据集- 该数据集包含由 2 个不同机器人（virtualMe 和先锋）构建的 17 个不同场所（Raghavender Sahdev，John K. Tsotsos。）[28/12/19 之前]
室内场景识别- 67 个室内类别，15620 张图像（Quattoni 和 Torralba） [28/12/19 之前]
Intrinsic Images in the Wild (IIW) - Intrinsic Images in the Wild，是一个大规模的公共数据集，用于评估室内场景的内在图像分解（Sean Bell、Kavita Bala、Noah Snavely）[28/12/19 之前]
IRS：大型合成室内机器人立体数据集- 103,316 个样本，涵盖家庭、办公室、商店和餐厅等广泛的室内场景（Wang、Zheng、Yan、Deng、Zhao、Chu） [28/12/19 之前]
LM+SUN - 45,676 张图像，主要是城市或人类相关场景（Tighe 和 Lazebnik） [28/12/19 之前]
Mallscape 数据集- 在两个大型购物中心在时间相隔几个月的两个不同会话期间捕获的 33K 本地化和时间戳图像的集合，能够评估现实条件下的兴趣点 (POI) 变化检测方法（Revaud、Sampaio De Rezende, Heo, You, Jeong) [2/1/20]
可见光和红外光谱中的海事图像- VAIS 包含从码头（Zhang、Choi、Daniilidis、Wolf 和 Kanan）获取的同时获得的未注册的热图像和可见光图像 [28/12/19 之前]
MASATI: MAritime SAtellite Imagery dataset - MASATI 是由光学航空影像组成的数据集，其中包含 6212 个样本，这些样本来自 Microsoft Bing Maps。它们被标记并分为7类海洋场景：陆地、海岸、海洋、海岸-船、海-船、海多船、海-船。（阿利坎特大学）【28/12/19前】
上下文中的材料 (MINC) - 上下文中的材料 (MINC) 建立在 OpenSurfaces 之上，但包括数百万个材料标签的点注释。（肖恩·贝尔、保罗·厄普丘奇、诺亚·斯纳维利、卡维塔·巴拉）【28/12/19 之前】
麻省理工学院内在图像- 20 个对象（Roger Grosse、Micah K. Johnson、Edward H. Adelson 和 William T. Freeman）[28/12/19 之前]
纽约大学 V2 曼哈顿框架数据集混合- 我们在 Silberman 等人的完整纽约大学深度数据集 V2 上提供曼哈顿框架 (MMF) 分割和 MF 旋转的混合。（Straub、Julian 和 Rosman、Guy 和 Freifeld、Oren 和 Leonard、John J. 和 Fisher III、John W.）[28/12/19 之前]
OFFSED/OPEDD 数据集- 越野语义分割和行人检测数据集（Peter Neigel、Jason Rambach、Didier Stricker）[1/2/21]
OpenSurfaces - OpenSurfaces 由数以万计的表面示例组成，这些示例从室内消费者照片中分割出来，并用材料参数、纹理信息和上下文信息进行注释。(Kavita Bala 等人) [28/12/19 之前]
Oxford Audiovisual Segmentation Dataset - Oxford Audiovisual Segmentation Dataset with Oxford Audiovisual Segmentation Dataset 包括被击中物体的录音（Arnab、Sapienza、Golodetz、Miksik 和 Torr）[28/12/19 之前]
Places 2 场景识别数据库-365个场景类别和800万张图片（Zhou、Khosla、Lapedriza、Torralba和Oliva） [28/12/19之前]
地点场景识别数据库- 205 个场景类别和 250 万张图像（Zhou、Lapedriza、Xiao、Torralba 和 Oliva） [28/12/19 之前]
RGB-NIR 场景数据集- 在 RGB 和近红外 (NIR)（棕色和 Susstrunk）中捕获的 9 个类别的 477 张图像 [28/12/19 之前]
RMS2017 - Reconstruction Meets Semantics 户外数据集- 500 个语义注释图像，带有来自真实花园的姿势和点云（Tylecek，Sattler）[28/12/19 之前]
RMS2018 - Reconstruction Meets Semantics 虚拟数据集- 30k 语义注释图像，带有来自 6 个虚拟花园（Le, Tylecek）的姿势和点云 [28/12/19 之前]
SceneNet RGB-D - 合成室内轨迹的 5M 逼真图像，包括 RGB 和深度（McCormac、Handa、Leutenegger、Davison）[28/12/19 之前]
Southampton-York Natural Scenes Dataset 90 个场景，25 个室内和室外场景类别，具有球形 LiDAR、HDR 强度、立体强度全景。(Adams, Elder, Graf, Leyland, Lugtigheid, Muryy) [28/12/19 之前]
SUN 2012 - 用于场景分类的 16,873 张完全注释的场景图像（Xiao 等人）[28/12/19 之前]
SUN 397 - 场景分类的397个场景类别（Xiao et al）[28/12/19之前]
SUN RGB-D：RGB-D 场景理解基准套件- 10,000 张 RGB-D 图像、146,617 个 2D 多边形和 58,657 个 3D 边界框（Song、Lichtenberg 和 Xiao）[28/12/19 之前]
SYNTHIA - 用于训练自动驾驶汽车的大型虚拟世界图像集（约半百万）。(计算机视觉中心ADAS组) [28/12/19之前]
Sift Flow（也称为 LabelMe Outdoor，LMO） - 2688 张图像，主要是户外自然和城市（Tighe 和 Lazebnik）[28/12/19 之前]
斯坦福背景数据集 - 包含至少一个前景对象的 715 张室外场景图像（Gould 等人）[28/12/19 之前]
Surface detection - Real-time traversable Surface detection by color space fusion and temporal analysis - Evaluation Dataset (Breckon, Toby P., Katramados, Ioannis) [28/12/19 之前]
Taskonomy - 超过 450 万张真实图像，每个图像都包含用于 25 项语义、2D 和 3D 任务的真实图像。(Zamir, Sax, Shen, Guibas, Malik, Savarese) [28/12/19 之前]
TB-Places - 用于图像检索和视觉位置识别的基准算法的花园图像数据集（Maria Leyva-Vallina，TrimBot2020 联盟） [26/2/20]
热路数据集- 我们的热路数据集提供了大约 6000 张在道路场景中捕获的热红外图像，并带有手动注释的地面实况。（3500：一般道路，1500：复杂道路，1000：越野）。(Jae Shin Yoon) [28/12/19 之前]
TrimBot2020 花园导航数据集——从安装在机器人平台上的摄像头和其他传感器以及捕获花园的其他外部传感器记录的传感器 RGBD 数据（TrimBot2020 联盟）[26/2/20]
TUM City Campus - 移动激光扫描 (MLS) 拍摄的城市点云，用于分类、对象提取和变化检测（Stilla、Hebel、Xu、Gehrung） [3/1/20]
UVA 内在图像和语义分割数据集- 具有真实反照率、阴影和语义注释的 RGB 数据集（TrimBot2020 联盟）[26/2/20]
ViDRILO - ViDRILO 是一个数据集，包含 5 个带注释的 RGB-D 图像序列，这些图像是在具有挑战性的照明条件下在两座办公楼中使用移动机器人获取的。（Miguel Cazorla、J. Martinez-Gomez、M. Cazorla、I. Garcia-Varea 和 V. Morell。）[28/12/19 之前]
虚拟画廊- 一个合成数据集，针对深度估计、实例分割和视觉定位等各种任务的多种挑战，例如不同的光照条件和不同的遮挡级别（Weinzaepfel、Csurka、Cabon、Humenberger）[7/1/20]
线框数据集- 一组人造场景的 RGB 图像用连接点和线进行注释，描述了场景的大尺度几何图形。(Huang et al.) [28/12/19 之前]

分割（一般）

天空分割数据集- 描述它的句子：这个天空数据集用于评估 IFT-SLIC 方法和其他超像素算法，使用 Juraj Kostolansky 提出的基于超像素的天空分割方法。它包含 60 张图像的集合，这些图像基于 R. Fergus 的 Caltech Airplanes Side 数据集，以及用于天空分割的地面实况。(Eduardo B. Alexandre, Paulo AV Miranda, R. Fergus) [28/12/19 之前]
Aberystwyth Leaf Evaluation Dataset - Timelapse 植物图像，用手标记一些时间步长的叶级分割，以及来自植物牺牲的生物数据。(Bell, Jonathan; Dee, Hannah M.) [28/12/19 之前]
ADE20K - 22+K 个分层分割和标记的场景图像（900 个场景类别，3+K 个类别和子部分类别）（Zhou、Zhao、Puig、Fidler、Barriuso、Torralba）[28/12/19 之前]
AeroRIT - 高光谱语义分割数据集（Rangnekar、Mokashi、Ientilucci、Kanan、Hoffman） [26/12/2020]
阿尔珀特等人。分割评估数据库（Sharon Alpert、Meirav Galun、Ronen Basri、Achi Brandt）[28/12/19 之前]
BMC（背景模型挑战） - 用于比较背景减法算法的数据集，由真实和合成视频组成（Antoine）[28/12/19 之前]
Berkeley Segmentation Dataset and Benchmark (David Martin 和 Charless Fowlkes) [28/12/19 之前]
CAD 120可供性数据集- 人类上下文中的像素方式可供性注释（Sawatzky、Srikantha、Gall）[28/12/19 之前]
COLT - 该数据集包含 40 个带有手动注释的每像素对象掩码的 imagenet 类别。(李佳) [28/12/19前]
CO-SKEL 数据集- 该数据集由分类骨架和分割掩码组成，用于评估协同骨架化方法。(Koteswar Rao Jerripothula, 蔡剑飞, 江波路, Junsong Yuan) [28/12/19前]
二维路面图像上的裂缝检测- 五组路面图像，其中包含与手动地面实况相关的裂缝和使用现有方法获得的 5 个自动分割 (Sylvie Chambon) [28/12/19 之前]
展开服装的CTU 颜色和深度图像数据集- 带有注释角的展开服装的图像。(Wagner, L., Krejov D., and Smutn V. (布拉格捷克理工大学)) [28/12/19 之前]
CTU 服装折叠照片数据集- 服装折叠各个阶段的颜色和深度图像。(Sushkov R., Melkumov I., Smutn y V. (布拉格捷克技术大学)) [28/12/19 之前]
DeformIt 2.0 - 图像数据增强工具：使用来自单个图像分割对（Brian Booth 和 Ghassan Hamarneh）的地面实况分割模拟新图像 [28/12/19 之前]
EVIMO - 使用事件相机进行运动分割、自我运动估计和跟踪的数据集；该数据集是使用 DAVIS 346C 收集的，并为相机和独立移动的对象提供 3D 姿势，以及逐像素运动分割掩码。(米特罗欣、叶、费米勒、阿洛蒙诺斯、德尔布鲁克) [14/1/20]
极端事件数据集- 在具有挑战性的条件下具有多个移动物体的事件数据集（低光照条件和极端光变化，包括闪烁的频闪灯）。（Mitrokhin、Fermuller、Parameshwara、Aloimonos）[27/12/2020]
Food50Seg - 用于食物图像语义分割的数据集- 50 个类别的 5000 个食物图像的像素级语义分割注释。为了应对现有食物数据集成像条件缺乏可变性的问题，我们还提供了在食物采集过程中可能导致不同视觉失真的图像：光源投射、JPEG 压缩失真、高斯噪声和高斯模糊. 最终数据集，由 120,000 张图像组成。(阿斯兰、乔卡、马志尼、谢蒂尼) [7/1/2021]
GrabCut 图像数据库(C. Rother, V. Kolmogorov, A. Blake, M. Brown) [28/12/19 之前]
Histology Image Collection Library (HICL) - HICL 汇集了来自各种疾病的 3870 张组织病理学图像（迄今为止），例如脑癌、乳腺癌和 HPV（人类乳头瘤病毒）-宫颈癌。（医学图像和信号处理（MEDISP）实验室，生物医学工程系，西阿提卡大学工程学院） [28/12/19前]
ICDAR'15 智能手机文档捕获和 OCR 竞赛 - 挑战 1 - 用户使用智能手机拍摄的文档视频以模拟移动文档捕获，以及要检测的文档角的地面实况坐标。(Burie, Chazalon, Cousty, Eskenazi, Luqman, Mehri, Nayef, Ogier, Prum 和 Rusinol) [28/12/19 之前]
Intrinsic Images in the Wild (IIW) - Intrinsic Images in the Wild，是一个大规模的公共数据集，用于评估室内场景的内在图像分解（Sean Bell、Kavita Bala、Noah Snavely）[28/12/19 之前]
LabelMe 图像数据库和在线注释工具（Bryan Russell、Antonio Torralba、Kevin Murphy、William Freeman）[28/12/19 之前]
LITS 肝脏肿瘤分割- 130 次 3D CT 扫描，对肝脏和肝脏肿瘤进行分割。Codalab.org (Patrick Christ) [28/12/19 之前]
上下文中的材料 (MINC) - 上下文中的材料 (MINC) 建立在 OpenSurfaces 之上，但包括数百万个材料标签的点注释。（肖恩·贝尔、保罗·厄普丘奇、诺亚·斯纳维利、卡维塔·巴拉）【28/12/19 之前】
MSeg - 统一来自不同领域的语义、实例和全景分割数据集的复合数据集，通过零样本跨数据集泛化评估（Lambert、Liu、Sener、Hays、Koltun）[27/12/2020]
多物种果花检测- 该数据集由四组花图像组成，来自三种不同的树种：苹果、桃子和梨，以及随附的地面实况图像。(Philipe A. Dias, Amy Tabb, Henry Medeiros) [28/12/19 之前]
ODMS: Object Depth via Motion and Segmentation Dataset - 用于通过运动和分割学习对象深度的数据集，其中包括可扩展的训练数据和跨多个应用领域的基准评估 (Griffin,Corso) [26/12/2020]
具有细长部分的对象- 用于评估我们的具有连接约束的面向图像森林变换方法的三个数据集，其中包含具有细长部分的对象。这些数据库由 280 张具有基本事实的鸟类和昆虫的公共图像组成。(Lucy AC Mansilla (IME-USP), Paulo AV Miranda) [28/12/19 之前]
OpenSurfaces - OpenSurfaces 由数以万计的表面示例组成，这些示例从室内消费者照片中分割出来，并用材料参数、纹理信息和上下文信息进行注释。(Kavita Bala 等人) [28/12/19 之前]
Osnabrück 凝视跟踪数据- 来自几个不同凝视跟踪数据集的 318 个视频序列，带有基于多边形的对象注释。(Schöning, Faion, Heidemann, Krumnack, Gert, Açik, Kietzmann, Heidemann & König) [28/12/19 之前]
PASCAL-Scribble 数据集- 我们的 PASCAL-Scribble 数据集提供了 59 个对象/材料类别的涂鸦注释。(迪林) [28/12/19前]
PetroSurf3D - 26 个高分辨率（亚毫米精度）岩石艺术 3D 扫描，带有用于分割的岩画像素标记。(Poier, Seidl, Zeppelzauer, Reinbacher, Schaich, Bellandi, Marretta, Bischof) [28/12/19 之前]
SAIL-VOS - 语义 Amodal 实例级视频对象分割 (SAIL-VOS) 数据集提供准确的地面实况注释，以开发推理对象被遮挡部分的方法，同时能够考虑时间信息（Hu、Chen、Hui、Huang， Schwing) [29/12/19]
人体皮肤的语义分割 - NIR 图像或低光设置中皮肤的语义分割 (Pandey, Aayush Tyagi, Ambekar, Prathosh AP) [26/12/2020]
阴影检测/纹理分割计算机视觉数据集- 基于视频的阴影检测/抑制序列，具有真实情况（Newey, C., Jones, O., & Dee, HM）[28/12/19 之前]
SYNTHIA - 用于训练自动驾驶汽车的大型虚拟世界图像集（约半百万）。(计算机视觉中心ADAS组) [28/12/19之前]
石溪大学阴影数据集 (SBU-Shadow5k) - 来自各种场景和照片类型的大规模阴影检测数据集，带有人类注释（Tomas FY Vicente、Le Hou、Chen-Ping Yu、Minh Hoai、Dimitris Samaras）[之前28/12/19]
TB-roses-v1 – 用于评估玫瑰茎分割的具有地面实况的玫瑰丛图像数据集（TrimBot2020 联盟）[26/2/20]
TRoM：清华道路标记- 这是一个有助于自动驾驶和 ADAS 道路标记分割领域的数据集。（刘小龙、邓志东、曹乐乐、路宏超）【28/12/19前】
UVA 内在图像和语义分割数据集- 具有真实反照率、阴影和语义注释的 RGB 数据集（Baslamisli、Groenestege、Das、Le、Kaaroglu、Gevers）> [28/12/19 之前]
VOS - 一个包含 200 个互联网视频的数据集，用于基于视频的显着对象检测和分割。（贾力、夏长群）【28/12/19前】
XPIE - 包含 10000 个包含手动注释显着对象的图像和 8596 个不包含显着对象的图像数据集。（贾力、夏长群）【28/12/19前】

同时定位和映射

空地数据集- 机载图像与 Google 街景数据的空地匹配（Andr?as L. Majdik、Yves Albers-Schoenberg、Davide Scaramuzza）[1/2/21]
协作 SLAM 数据集 (CSD) - 该数据集由四个不同的子集组成 - Flat、House、Priory 和 Lab - 每个子集都包含几个 RGB-D 序列，这些序列可以重建并成功地相互重新定位以形成组合 3D 模型。每个序列都是使用 Asus ZenFone AR 捕获的，我们为数据集中的每个 RGB-D 帧提供准确的局部 6D 姿势。我们还提供深度和颜色传感器的校准参数、每个子集中序列的优化全局姿态以及每个序列的预构建网格。(Golodetz、Cavallari、Lord、Prisacariu、Murray、Torr) [28/12/19 之前]
组合动态视觉/RGB-D 数据集-“该数据集包含来自 D-eDVS 的三个数据流（颜色、深度、事件）的记录。深度增强的嵌入式动态视觉传感器。以及来自外部的相应地面实况数据跟踪系统。”(Weikersdorfer, Adrian, Cremers, Conradt) [27/12/2020]
“基于事件的直接相机跟踪数据集” - 该数据集由一个或多个事件相机的轨迹（存储为 rosbag）和相应的光度图组成，以真实数据的点云和模拟场景的纹理网格的形式以及真实姿势。（Bryner、Gallego、Rebecq、Scaramuzza、RPG UZH 和 ETH Zurich）[27/12/2020]
用于姿势估计、视觉里程计和 SLAM的事件相机数据这些数据还包括来自运动捕捉系统的强度图像、惯性测量值和地面实况。(ETH) [28/12/19 之前]
EVIMO - 使用事件相机进行运动分割、自我运动估计和跟踪的数据集；该数据集是使用 DAVIS 346C 收集的，并为相机和独立移动的对象提供 3D 姿势，以及逐像素运动分割掩码。(米特罗欣、叶、费米勒、阿洛蒙诺斯、德尔布鲁克) [14/1/20]
House3D - House3D 是一个虚拟 3D 环境，由数千个室内场景组成，配备了来自 SUNCG 数据集的各种场景类型、布局和对象。它由超过 45,000 个室内 3D 场景组成，从工作室到带游泳池和健身房的两层楼房屋。所有 3D 对象都使用类别标签进行了完整注释。环境中的代理可以访问多种模式的观察结果，包括 RGB 图像、深度、分割掩码和自上而下的 2D 地图视图。渲染器以每秒数千帧的速度运行，使其适用于大规模 RL 训练。(Yu Wu, Yuxin Wu, Georgia Gkioxari, Yuandong Tian, facebook 研究) [28/12/19 之前]
Quadrotor with Down-Looking Camera 的室内数据集- 该数据集包含原始图像的记录、IMU 测量值以及在办公室大小的环境中以圆形轨迹飞行的四旋翼飞行器的地面实况姿态。(Scaramuzza, ETH Zurich, University of Zurich) [28/12/19 之前]
InLoc - 用于评估 6DoF 视觉定位算法在具有挑战性的室内场景中的准确性的基准。(Hajime Taira, Masatoshi Okutomi, Torsten Sattler, Mircea Cimpoi, Marc Pollefeys, Josef Sivic, Tomas Pajdla, Akihiko Torii) [28/12/19 之前]
长期视觉定位- 用于评估各种光照和季节性条件下的视觉定位和映射算法的 TBenchmark。(Torsten Sattler, Will Maddern, Carl Toft, Akihiko Torii, Lars Hammarstrand, Erik Stenborg, Daniel Safari, Masatoshi Okutomi, Marc Pollefeys, Josef Sivic, Fredrik Kahl, Tomas Pajdla) [28/12/19 之前]
多车辆立体事件相机数据集- 包含一对立体 DAVIS 346b 事件相机的多个序列，其中包含真实姿势、深度图和光流。(lex Zihao Zhu, Dinesh Thakur, Tolga Ozaslan, Bernd Pfrommer, Vijay Kumar, Kostas Daniilidis) [28/12/19 之前]
PanoNavi dataset - 用于机器人导航的全景数据集，由 5 个持续约 1 小时的视频组成。（凌言然）【28/12/19前】
RAWSEEDS SLAM 基准数据集（Rawseeds 项目） [28/12/19 之前]
2014年国立博物馆挑战赛- 它由来自国立博物馆的 10 万件艺术品组成，并带有描述每个物品的大量 xml 文件。(Thomas Mensink 和 Jan van Gemert) [28/12/19 之前]
视觉路径的 RSM 数据集- 室内空间的视觉数据集，用于基准定位/导航方法。它由 1.5 公里长的走廊和室内空间组成，每帧都有地面实况，以距离起点的厘米为单位。包括一个综合生成的基准走廊。(Jose Rivera-Rubio, Ioannis Alexiou, Anil A. Bharath) [28/12/19 之前]
TUM RGB-D 基准- 用于评估 RGB-D 视觉里程计和 SLAM 算法的数据集和基准（BCrgen Sturm、Nikolas Engelhard、Felix Endres、Wolfram Burgard 和 Daniel Cremers）[28/12/19 之前]
TUM VI Benchmark - 28 个序列，室内和室外，来自立体相机和 IMU 的传感器数据，开始和结束段的准确地面实况。（大卫·舒伯特、托尔·戈尔、尼古拉斯·德梅尔、弗拉迪斯拉夫·乌森科、约尔格·斯图克勒、丹尼尔·克雷默斯）[28/12/19 之前]
视觉里程计 / SLAM 评估-里程计基准包含 22 个立体序列（Andreas Geiger 和 Philip Lenz 和 Raquel Urtasun）[28/12/19 之前]
具有全光和立体数据的视觉里程计数据集- 该数据集包含由手持平台记录的 11 个序列，该平台由一个全光相机和一对立体相机组成。序列包括不同的室内和室外序列，轨迹长度从 25 米到数百米不等。记录的序列显示移动物体以及不断变化的照明条件。(Niclas Zeller and Franz Quint, Hochschule Karlsruhe, Karlsruhe University of Applied Sciences) [28/12/19 之前]
ViViD : Vision for Visibility Dataset -“该数据集提供了由热、深度和时间差传感器记录的室内和室外轨迹的正常和较差的照明序列。”（Lee、Cho、Yoon、Shin、Kim）[27/12/2020 ]

监视和跟踪

一组具有挑战性的运动分割基准数据集- 这些数据集包含现实生活中的长序列和短序列，每个序列的运动和帧数增加，以及丢失数据的真实失真。在所有序列的所有帧上都提供了基本事实。(Muhammad Habib Mahmood, Yago Diez, Joaquim Salvi, Xavier Llado) [28/12/19 之前]
A Day on Campus (ADOC) - 用于异常检测的数据集，具有 24 小时连续视频和 875 个事件的静态时间注释。(Mantini, Li, Shah) [06/1/2021]
ATOMIC GROUP ACTIONS 数据集- (Ricky J. Sethi et al.) [28/12/19 之前]
AUT MULTIDRONE 视频数据集，用于从无人机镜头检测/跟踪赛车自行车- 7 个 Youtube 视频（分辨率：1920 x 1080），25fps (Mademlis) [28/12/19 之前]
AVSS07：基于高级视频和信号的监视 2007 数据集(Andrea Cavallaro) [28/12/19 之前]
活动建模和异常检测数据集- 该数据集包含带有注释异常的 45 分钟视频。(Jagan Varadarajan 和 Jean-Marc Odobez) [28/12/19 之前]
背景减法- 关于背景减法的数据集列表(Thierry BOUWMANS) [28/12/19 之前]
CAMO-UOW 数据集- 在真实场景中捕获的 10 个高分辨率视频用于伪装背景减法（李帅和李万庆） [28/12/19 之前]
CCTV-Fights - 1,000 个描绘真实世界战斗的视频，从 CCTV 或移动摄像机录制，并在帧级别进行时间注释。(Mauricio Perez, ROSE Lab, NTU) [28/12/19 之前]
CMUSRD：监控研究数据集- 用于室内监控场景的多摄像机视频（K. Hattori、H. Hattori 等）[28/12/19 之前]
DukeMTMC：杜克多目标多相机跟踪数据集- 8 个相机，85 分钟，2m 帧，2000 人的视频（Ergys Ristani、Francesco Solera、Roger S. Zou、Rita Cucchiara、Carlo Tomasi）[28/12/19 之前]
DukeMTMC-reID - 用于基于图像的人员重新识别的 DukeMTMC 子集（8 个摄像头，702 个身份的 16,522 张训练图像，其他 702 个身份的 2,228 个查询图像和 17,661 个画廊图像。）（Zheng、Zheng 和 Yang） [28/12/19 之前]
ETISEO Video Surveillance Download Datasets (INRIA Orion Team and others) [28/12/19 之前]
夜间桥梁行人 (EBP) 数据集- 在佛山（中国伟大的城市）晚上举行的大型传统庆祝活动中收集的图像，对人群计数的研究具有挑战性。（郑慧诚、林子健、岑杰鹏、吴泽宇、赵雅丹）[1/2/21]
FMO 数据集- FMO 数据集包含带有快速移动对象的带注释的视频序列 - 对象在一帧中移动的投影距离大于其大小。(Denys Rozumnyi, Jan Kotera, Lukas Novotny, Ales Hrabalik, Filip Sroubek, Jiri Matas) [28/12/19 之前]
HDA+ 多摄像头监控数据集- 来自分布在研究所 3 层楼的 18 个异构摄像头（不同分辨率和帧速率）网络的视频，其中包含 13 个完全标记的序列、85 个人和 64028 个人的边界框。（D. Figueira、M. Taiana、A. Nambiar、J. Nascimento 和 A. Bernardino）[28/12/19 之前]
人类点击数据- 20K 人类点击跟踪目标（包括点击错误）（Zhu 和 Porikli）[28/12/19 之前]
IITB 走廊- 集体活动，如抗议、追逐、打架、突然奔跑以及单人活动，如躲脸、游荡、无人看管的行李、携带可疑物体和骑自行车（在步行区）（Royston Rodriguez 等人） .) [26/12/2020]
即时数据集- 此数据集旨在估计个人关系。（小楚等）【28/12/19前】
长期人群流- 程序生成环境中的 87,430 个人群配置和相应的模拟长期人群流（Sohn、Zhou、Moon、Yoon、Pavlovic、Kapadia）[26/12/2020]
MAHNOB 数据库- 包括笑声数据库、HCI-标签数据库、MHI-Mimicry 数据库（M. Pantic. 等） [28/12/19 之前]
RGB-D 中的移动婴儿 (MINI-RGBD) - 用于婴儿姿势估计的合成、逼真的 RGB-D 数据集，包含 12 个具有真实关节位置的移动婴儿序列。(N. Hesse, C. Bodensteiner, M. Arens, UG Hofmann, R. Weinberger, AS Schroeder) [28/12/19 之前]
MSMT17 - 人员重新识别数据集。180 小时的视频、12 个室外摄像机、3 个室内摄像机和 12 个时隙。（魏龙辉、张世良、高文、田七）【28/12/19前】
MULTIDRONE 船只检测/跟踪- 3 个高清视频 (720p - 1280 x 720) 以 25 fps (Mademlis,) [28/12/19 之前]
MVHAUS-PI - 多视图人机交互识别数据集（Saeid 等人）[28/12/19 之前]
多光谱可见光-NIR视频序列- 带注释的多光谱视频，可见光 + NIR（LE2I，勃艮第大学）[28/12/19 之前]
Openvisor - 视频监控在线资源库（摩德纳大学和雷焦艾米利亚大学）[28/12/19 之前]
停车场数据集- 停车场数据集是一个汽车数据集，专注于停车场场景中汽车的中度和严重遮挡。(B. Li, TF Wu 和 SC Zhu) [28/12/19 之前]
色情数据库- 色情数据库是一个色情检测数据集，包含从色情网站和 Youtube 中提取的近 80 小时的 400 个色情和 400 个非色情视频。(Avila, Thome, Cord, Valle, de Araujo) [28/12/19 之前]
Princeton Tracking Benchmark - 100 个 RGBD 跟踪数据集（宋和肖） [28/12/19 之前]
QMUL 路口数据集 1 和 2 - 繁忙路口的视频。支持异常检测任务。(T. Hospedales Edinburgh/QMUL) [28/12/19 之前]
Queen Mary Multi-Camera Distributed Traffic Scenes Dataset (QMDTS) - QMDTS 是从城市监控环境中收集的，用于研究分布式场景中的监控行为。（徐迅博士、龚绍刚教授、Timothy Hospedales博士）【28/12/19前】
道路异常检测- 22 公里，11 辆车，正常 + 4 个缺陷类别（Hameed、Mazhar、Hassan）[28/12/19 之前]
S-Hock 数据集- 观众人群分析的新基准。(Francesco Setti, Davide Conigliaro, Paolo Rota, Chiara Bassetti, Nicola Conci, Nicu Sebe, Marco Cristani) [28/12/19 之前]
SALSA：协同社会场景分析- 用于多模态群体行为分析的新数据集（Xavier Alameda-Pineda 等）[28/12/19 之前]
SBMnet (Scene Background Modeling.NET) - 用于测试背景估计算法（Jodoin、Maddalena 和 Petrosino）的数据集 [28/12/19 之前]
SBM-RGBD 数据集- 35 个 Kinect 室内 RGBD 视频，用于评估和比较用于运动物体检测的场景背景建模方法（Camplani、Maddalena、Moy?? Alcover、Petrosino、Salgado）[28/12/19 之前]
SCOUTER - 视频监控地面实况（变换视角、不同的设置/照明条件、大量变化的主题）。30 个视频和大约 36,000 个手动标记的帧。(Catalin Mitrea) [28/12/19 之前]
SJTU-BEST一个监控指定数据集平台，具有逼真的、使用中的摄像头捕获的、多样化的监控图像和视频集（上海交通大学） [28/12/19 之前]
SPEVI：监视绩效评估计划（伦敦玛丽女王大学）[28/12/19 之前]
Shinpuhkan 2014 - 一个人员重新识别数据集，包含 22,000 张由 16 个摄像头拍摄的 24 个人的图像。(Yasutomo Kawanishi et al.) [28/12/19 之前]
斯坦福无人机数据集- 60 幅不同类型代理（不仅是行人，还有自行车手、滑板手、汽车、公共汽车和高尔夫球车）的图像和视频，它们在真实世界的户外环境中导航，例如大学校园（Robicquet、Sadeghian、 Alahi, Savarese) [28/12/19 之前]
斯图加特人工背景减法数据集【28/12/19前】
在极其杂乱的场景中跟踪 - 这个单对象跟踪数据集有 28 个高度杂乱的序列，每帧注释（Jingjing Xiao，Linbo Qiao，Rustam Stolkin，Ale Leonardis）[28/12/19 之前]
TrackingNet - 用于野外跟踪的大规模数据集：用于训练的 30k 多个带注释的序列，用于测试、评估服务器和排行榜的 500 多个隔离序列用于公平排名。(Matthias Muller, Adel Bibi, Silvio Giancola, Salman Al-Subaihi 和 Bernard Ghanem) [28/12/19 之前]
UCF-Crime Dataset: Real-world Anomaly Detection in Surveillance Videos - 用于监控视频中真实世界异常检测的大规模数据集。它由1900个长且未经剪辑的现实世界监控视频（128小时）组成，包含打斗、交通事故、入室盗窃、抢劫等13个现实异常以及正常活动。（中佛罗里达大学计算机视觉研究中心）【28/12/19前】
UCLA Aerial Event Dataset - 航拍视频中的人类活动，带有人、物体、社会群体、活动和角色的注释（Shu、Xie、Rothrock、Todorovic 和 Zhu）[28/12/19 之前]
UCSD 异常检测数据集- 安装在高处的固定摄像机，可俯瞰人行道，具有异常的行人或非行人运动。[28/12/19 之前]
UCSD 轨迹聚类和分析数据集- (Morris and Trivedi) [28/12/19 之前]
USC 信息科学研究所的 ATOMIC PAIR ACTIONS 数据集- (Ricky J. Sethi et al.) [28/12/19 之前]
Udine Trajectory-based 异常事件检测数据集-带有异常值的合成轨迹数据集（乌迪内大学人工视觉与实时系统实验室） [28/12/19 之前]
Visual Tracker Benchmark - 100 个对象跟踪序列，带有Visual Tracker Benchmark 评估的ground truth ，包括来自多个跟踪器（Wu、Lim、Yang）的跟踪结果 [28/12/19 之前]
WIDER Attribute Dataset - WIDER Attribute 是一个大规模的人类属性数据集，包含 13789 张图像，属于 30 个场景类别，以及 57524 个人类边界框，每个边界框用 14 个二进制属性进行注释。（李、以宁与黄、陈与洛、陈变与唐、肖欧）【28/12/19前】

纹理

动物、地球和植物纹理数据集- 来自 Flickr 或 Adobe Stock（Yu、Barnes、Shechtman 等）的每个类别大约 1,000 张图像 [27/12/2020]
Brodatz Texture、Normalized Brodatz Texture、Colored Brodatz Texture、Multiband Brodatz Texture 154 张新图像和 112 张经过各种变换的原始图像 (A. Safia, D. He) [28/12/19 之前]
BTF 数据库波恩- 材料扫描，每个扫描由辐射校准的配准图像组成，从不同方向照射和观察，图像以双向纹理函数表示 (Reinhard Klein) [27/12/2020]
按类别为纹理图像着色 (textures.forrest.cz) [28/12/19 之前]
Columbia-Utrecht Reflectance and Texture Database (Columbia & Utrecht Universities) [28/12/19 之前]
共同点：具有挑战性的微观材料表面- 在不同受控成像条件下使用织物表面高分辨率图像进行材料表征的数据集（Y. Hu 和 Z. Long 和 A. Sunderasan 和 M. Alfarraj、G. AlRegib、Sungmee Park 和 Sundaresan Jayaraman) [1/2/21]
DynTex：动态纹理数据库（Renaud Piteri、Mark Huiskes 和 Sandor Fazekas）[28/12/19 之前]
房屋数据集- 房价的基准数据集，其中包含有关 535 所房屋的视觉和文本信息。(Ahmed, Eman and Moustafa, Mohamed) [28/12/19 之前]
Intrinsic Images in the Wild (IIW) - Intrinsic Images in the Wild，是一个大规模的公共数据集，用于评估室内场景的内在图像分解（Sean Bell、Kavita Bala、Noah Snavely）[28/12/19 之前]
KTH TIPS & TIPS2 纹理- 姿势/光照/比例变化 (Eric Hayman) [28/12/19 之前]
上下文中的材料 (MINC) - 上下文中的材料 (MINC) 建立在 OpenSurfaces 之上，但包括数百万个材料标签的点注释。（肖恩·贝尔、保罗·厄普丘奇、诺亚·斯纳维利、卡维塔·巴拉）【28/12/19 之前】
OpenSurfaces - OpenSurfaces 由数以万计的表面示例组成，这些示例从室内消费者照片中分割出来，并用材料参数、纹理信息和上下文信息进行注释。(Kavita Bala 等人) [28/12/19 之前]
奥卢纹理数据库（奥卢大学）【28/12/19前】
牛津可描述纹理数据集- 47 个类别中的 5640 张图像（M.Cimpoi、S. Maji、I. Kokkinos、S. Mohamed、A. Vedaldi）[28/12/19 之前]
布拉格纹理分割数据生成器和基准测试(Mikes, Haindl) [28/12/19 之前]
萨尔茨堡纹理图像数据库 (STex) - 在奥地利萨尔茨堡周围捕获的 476 色纹理图像的大型集合。(Roland Kwitt 和 Peter Meerwald) [28/12/19 之前]
SVBRDF 数据库波恩- 材料扫描，每个扫描由辐射校准的配准图像组成，从不同方向照明和观察，以及 SVBRDF 拟合 (Reinhard Klein) [27/12/2020]
合成 SVBRDF 和渲染- 该数据集包含 20000 种不同材料的 200000 渲染，这些材料与其在 Cook-Torrance 模型中的地面实况表示相关。仅在研究下分发，非商业使用许可。（“GraphDeco”团队，Inria） [28/12/19 之前]
纹理数据库纹理数据库具有 25 个纹理类，每个类 40 个样本（Svetlana Lazebnik、Cordelia Schmid 和 Jean Ponce） [28/12/19 之前]
表面和材料的乌普萨拉纹理数据集- 织物、谷物等 [28/12/19 之前]
Vision Texture (MIT Media Lab) [28/12/19 之前]

城市数据集

巴塞罗那- 15,150 张图像，巴塞罗那（Tighe 和 Lazebnik）的城市景观 [28/12/19 之前]
Cityscapes - 一个大型数据集，包含在来自 50 个不同城市的街景中记录的各种立体视频序列集，除了更大的 20.000 个弱注释帧之外，还具有 5.000 帧的高质量像素级注释。(Cityscpes团队) [28/12/19之前]
CMP Facade Database - 包括来自不同地方的 606 幅修正的外墙图像，并标注了 12 个建筑类。(Radim Tylecek) [28/12/19 之前]
DeepGlobe 卫星图像理解挑战- 卫星图像上三个深度学习任务的数据集和评估平台：道路提取、建筑物检测和土地类型分类。(Demir, Ilke and Koperski, Krzysztof and Lindenbaum, David and Pang, Guan and Huang, Jing and Basu, Saikat and Hughes, Forest and Tuia, Devis and Raskar, Ramesh) [28/12/19 之前]
DroNet：通过驾驶学习飞行- 来自自行车的视频，带有标记的碰撞数据，用于学习预测车辆的潜在危险情况。(Loquercio, Maqueda, Del Blanco, Scaramuzza) [28/12/19 之前]
2013年欧洲洪水- 中欧洪水事件的 3,710 张图像，注释了与 3 个图像检索任务（多标签）和重要图像区域的相关性。(Friedrich Schiller University Jena, Deutsches GeoForschungsZentrum Potsdam) [28/12/19 之前]
Fishyscapes Benchmark of Anomaly Detection for Semantic Segmentation - 类似城市景观的城市驾驶图像中的异常检测（Blum、Sarlin、Nieto、Siegwart、Cadena） [27/12/2020]
房屋数据集- 房价的基准数据集，其中包含有关 535 所房屋的视觉和文本信息。(Ahmed, Eman and Moustafa, Mohamed) [28/12/19 之前]
LM+SUN - 45,676 张图像，主要是城市或人类相关场景（Tighe 和 Lazebnik） [28/12/19 之前]
MIT CBCL StreetScenes 挑战框架： (Stan Bileschi) [28/12/19 之前]
Playing for Benchmarks (VIPER) - 包含 250K 帧城市场景的视频序列，从一个逼真的开放世界计算机游戏中提取。地面实况注释可用于多种视觉感知任务（语义、实例、全景分割、光流、3D 对象检测、视觉里程计）（Richter、Hayder、Koltun）[12/08/20]
Playing for Data: Ground Truth from Computer Games - 从逼真的开放世界计算机游戏（Richter、Vineet、Roth、Koltun）中提取的城市场景的 25K 合成图像和语义分割ground truth [12/08/20]
Queen Mary Multi-Camera Distributed Traffic Scenes Dataset (QMDTS) - QMDTS 是从城市监控环境中收集的，用于研究分布式场景中的监控行为。（徐迅博士、龚绍刚教授、Timothy Hospedales博士）【28/12/19前】
Robust Global Translations with 1DSfM描述来自每个数据集的运动问题的全局结构的数值数据（Kyle Wilson 和 Noah Snavely）[28/12/19 之前]
Sift Flow（也称为 LabelMe Outdoor，LMO） - 2688 张图像，主要是户外自然和城市（Tighe 和 Lazebnik）[28/12/19 之前]
Street-View Change Detection with Deconvolutional Networks - 包含来自街景图像的对齐图像对的数据库，其中包含结构、照明、天气和季节性变化。(Pablo F. Alcantarilla, Simon Stent, German Ros, Roberto Arroyo 和 Riccardo Gherardi) [28/12/19 之前]
SydneyHouse - 具有准确 3D 房屋形状、立面对象标签、密集点对应关系和注释工具箱的街景房屋图像。(航楚, 王神龙, Raquel Urtasun, Sanja Fidler) [28/12/19前]
交通标志数据集- 记录超过 350 公里瑞典高速公路和城市道路的序列 (Fredrik Larsson) [28/12/19 之前]
nuTonomy 场景数据集（nuScenes） - nuScenes 数据集是一个大规模的自动驾驶数据集。它具有：完整的传感器套件（1x LIDAR、5x RADAR、6x 摄像头、IMU、GPS）、1000 个每个 20 秒的场景、1,440,000 个摄像头图像、400,000 次激光雷达扫描、两个不同的城市：波士顿和新加坡、左右手交通、详细地图信息、25 个对象类的手动注释、以 2Hz 注释的 1.1M 3D 边界框、可见性、活动和姿势等属性。(Caesar et al) [28/12/19 之前]
TUM City Campus - 移动激光扫描 (MLS) 拍摄的城市点云，用于分类、对象提取和变化检测（Stilla、Hebel、Xu、Gehrung） [3/1/20]

视觉和自然语言

INRIA BL 数据库- 视听语音语料库多模态自动语音识别、音频/视觉同步或语音驱动的嘴唇动画系统（Benezeth、Bachman、Lejan、Souviraa-Labastie、Bimbot）[28/12/19 之前]
CrisisMMD：来自自然灾害的多模式 Twitter 数据集 - CrisisMMD 多模式 Twitter 数据集包含在 2017 年发生在美国不同地区的地震、飓风、野火和洪水等七种主要自然灾害期间收集的数千条手动注释的推文和图像。世界。(Firoj Alam, Ferda Ofli, Muhammad Imran) [28/12/19 之前]
DAQUAR - 关于图像的人类问答对数据集，它体现了我们在视觉图灵测试中的愿景。(Mateusz Malinowski, Mario Fritz) [28/12/19 之前]
结构化查询和空间关系数据集 - 关于图像的结构化查询数据集，强调空间关系。(Mateusz Malinowski, Mario Fritz) [28/12/19 之前]
DVQA：通过问答理解数据可视化- VQA 关于条形图的数据集：3 类问题，300,000 张图片，3,487,194 对问答对，详细元数据（Kafle、Cohen、Price、Kanan）[28/12/19 之前]
Multimodal Ferramenta 数据集- 88010 张图像，属于 52 个类别，使用超过 20K 个不同的词（Gallo、Calefati、Nawaz）进行描述 [28/12/19 之前]
FigureQA - 有关条形图和饼图以及数字图的 VQA 数据集：100,000 张图像、1,327,368 个问答对、100 种颜色和图形元素名称、15 种问题类型（Kahou、Michalski、Atkinson、Kadar、Trischler、Bengio）[ 28/12/19 之前]
汉娜和她的姐妹们的数据库- 密集的视听人脸、语音片段、镜头边界的地面实况注释（Patrick Perez，Technicolor）[28/12/19 之前]
大规模电影描述挑战 (LSMDC) - 用于电影描述的大规模数据集和挑战，包括超过 128K 的视频句子对，主要来自音频描述（也称为 DVS）。(Rohrbach, Torabi, Rohrbach, Tandon, Pal, Larochelle, Courville and Schiele) [28/12/19 之前]
LRW-1000 - 视听语音识别数据集，包括 1000 个单词/短语和 70,000 多个样本，可用于 AVSR、VSR（唇读）或其他相关任务（杨双）[27/12/2020]
M2E2: MultiMedia Event Extraction - 一组从网络上收集的新闻文章，每篇文章都包含全文和几张随附的图像，用出现在文本或图像中的事件和事件参数进行注释，以及视觉和文本事件之间的共指链接（李, Zareian, Zeng, Whitehead, Lu, Ji, Chang) [28/12/2020]
MPII 数据集- 关于基于视频纠正不准确句子的数据集。(Amir Mazaheri) [28/12/19 之前]
MPI 电影描述数据集 - 文本和视频- 与源自电影脚本和音频描述的自然语言描述相关联的电影剪辑数据集。(Rohrbach, Rohrbach, Tandon 和 Schiele) [28/12/19 之前]
nocaps - 新对象字幕的大规模基准；描述包含在配对图像字幕训练数据中未见的视觉概念的图像的任务（Agrawal、Desai、Wang、Chen、Jain、Johnson、Batra、Parikh、Lee、Anderson）[2/1/20]
OCR-VQA - 207572 幅图像和 1m 相关问答对（Mishra、Shekhar、Singh、Chakraborty）[12/08/20]
PlotQA: Reasoning over Scientific Plots - 一个包含 2890 万个 QA 对的 VQA 数据集，基于来自真实世界来源的数据和基于众包问题模板的问题的 224,377 个科学图（条形、线和点线）。(N. Methani, P. Ganguly, MM Khapra 和 P. Kumar) [1/2/21]
Recipe1M - 用于学习烹饪食谱和食物图像的跨模态嵌入的数据集- Recipe1M 是一个新的大规模结构化语料库，包含超过 100 万个烹饪食谱和 1300 万张食物图像。作为最大的公开可用的配方数据集合，Recipe1M 提供了在对齐的多模态数据上训练高容量模型的能力。（哈维尔·马林、阿里特罗·比斯瓦斯、费尔达·奥夫利、尼古拉斯·海因斯、阿玛亚·萨尔瓦多、优素福·艾塔尔、英格玛·韦伯、安东尼奥·托拉尔巴） [28/12/19 之前]
用于视觉和语言导航的房间到房间 (R2R) 数据集- 视觉基础自然语言导航指令的语料库，与来自 Matterport3D 数据集（Anderson、Wu、Teney、Bruce、Johnson、Sunderhauf、Reid）的重建室内建筑中的轨迹配对, 古尔德, 范登亨格尔) [2/1/20]
SemArt 数据集- 语义艺术理解数据集，包括 21,384 幅带有属性和艺术评论的美术绘画图像。(Noa Garcia, George Vogiatzis) [28/12/19 之前]
SpatialSense - 二维图像中空间关系的数据集，其构建目标是减少数据集偏差并在长尾中采样更具挑战性的关系（Yang、Russakovsky、Deng）[2/1/20]
STAIR Actions Captions - 一个视频字幕数据集，包含 80,000 个视频剪辑的 400,000 个日语字幕（Shigeto、Yoshikawa、Lin、Takeuchi） [26/12/2020]
STAIR Captions - 包含 820,310 条 MS-COCO（吉川、茂人、竹内）日语字幕的数据集 [26/12/2020]
TACoS 多级语料库- 与三个详细级别（长、短和单句）的自然语言描述相关的烹饪视频数据集。(Rohrbach, Rohrbach, Qiu, Friedrich, Pinkal 和 Schiele) [28/12/19 之前]
TallyQA - 截至 2018 年最大的开放式计数数据集，它包括评估简单和更高级功能的测试集。(Manoj Acharya, Kushal Kafle, Christopher Kanan) [28/12/19 之前]
TDIUC（任务驱动的图像理解） ——截至 2018 年，这是最大的 VQA 数据集，它有助于分析 12 种问题。(Kushal Kafle, Christopher Kanan) [28/12/19 之前]
TextCaps 0.1 - 125K 字幕、25K 图像 Rosetta OCR 令牌，用于联合视觉和文本识别（Rohrbach 团队）[12/08/20]
TextVQA - 基于图像中的文本对视觉推理进行基准测试的数据集。28K 图像、45K 问题、453K 答案（Singh、Natarjan、Shah、Jiang、Chen、Parikh、Rohrbach） [12/08/20]
TGIF - 来自 Tumblr 的 100K 动画 GIF 和 120K 自然语言描述。(李、宋、曹、特特罗、戈德堡、詹姆斯、罗) [28/12/19前]
多伦多 COCO-QA 数据集- 从图像标题自动生成。123287张图片 78736个训练题 38948个测试题 4种题型：物体、数字、颜色、位置答案都是一个词。（任梦野、瑞恩·基罗斯、理查德·泽梅尔）【28/12/19前】
Totally Looks Like - 用于预测基于人类的图像相似性的评估基准（Amir Rosenfeld、Markus D. Solbach、John Tsotsos）[28/12/19 之前]
Twitter for Sentiment Analysis (T4SA) - 根据文本的情感极性标记的大约 100 万条推文（文本和相关图像）；这些数据可用于情绪分析以及其他分析，因为推文是从所有全球生成的推文流中随机抽取的推文。(Lucia Vadicamo, Fabio Carrara, Andrea Cimino, Stefano Cresci, Felice Dell'Orletta, Fabrizio Falchi, Maurizio Tesconi) [28/12/19 之前]
UCF-CrossView Dataset: Cross-View Image Matching for Geo-localization in Urban Environments - 用于交叉视图图像地理定位的街景和鸟瞰图图像的新数据集。（中佛罗里达大学计算机视觉研究中心）【28/12/19前】
Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations - Visual Genome 是一个数据集、一个知识库，是将结构化图像概念与语言联系起来的持续努力。(Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li Jia-Li, David Ayman Shamma, Michael Bernstrein, Li Fei-Fei) [28/12/19 之前]
使用语言先验的视觉关系检测- 5000 张图像、37,993 千个关系、100 个对象类别、70 个谓词类别（Lu、Krishna、Bernstein、Fei-Fei）[28/12/19 之前]
VizWiz - 字幕数据集、VQA/视觉问答、图像质量评估、具有基本事实的私有图像检测数据库。数据集特别适合帮助盲人的算法（Jeffrey P. Bigham、Erin Brady、Danna Gurari、Kristen Grauman、Qing Li、Anhong Guo 等）[12/08/20]
VQA: Visual Question Answering - 一个包含关于图像的开放式问题的新数据集。这些问题需要对视觉、语言和常识知识的理解才能回答。(Yash Goyal, Tejas Khot, Georgia Institute of Technology, Army Research Laboratory, Virginia Tech) [28/12/19 之前]
VQA v1 - VQA: Visual Question Answering - 对于每张图片，我们收集了 3 个自由形式的自然语言问题，每个问题有 10 个简洁的开放式答案。我们提供两种格式的 VQA 任务。(Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu) [28/12/19 之前]
VQA 2.0视觉问答。基于 COCO 的 200k 图片、6M 注释、1M 问题......（Goyal、Khot、Summers-Stay、Batra、Parikh） [12/08/20]
VQDv1 - 视觉查询检测 (VQD) 是一项任务，其中给定自然语言查询和图像，系统必须生成 0 - N 个满足该查询的框（Acharya、Jariwala、Kanan）[26/12/2020]
YouCook2 - 2000 个长的 YouTube 烹饪视频，其中每个食谱步骤都在时间上被本地化并由一个命令式英语句子描述。边界框注释可用于验证和测试拆分。（周洛薇、徐晨亮、Jason Corso）【28/12/19前】
YouTube 电影摘要- 来自 YouTube 的电影摘要视频，在句子级别和短语级别用视频片段和电影概要文本之间的对应关系进行注释。(Pelin Dogan, Boyang Li, Leonid Sigal, Markus Gross) [28/12/19前]

其他收藏

4D 光场数据集- 24 个合成场景，具有 9x9x512x512x3 输入图像、深度和视差地面实况、相机参数和评估掩码。(Katrin Honauer, Ole Johannsen, Daniel Kondermann, Bastian Goldluecke) [28/12/19 之前]
AMADI_LontarSet - 巴厘语棕榈叶手稿图像数据集，用于巴厘语脚本的二值化、逐字查询和孤立字符识别。（AMADI 项目等）[28/12/19 之前]
带注释的网络耳朵数据集（AWE 数据集） ——所有图像都是通过从已知人的互联网图像中裁剪耳朵来获取的。(Ziga Emersic, Vitomir Struc 和 Peter Peer) [28/12/19 之前]
生物识别评估和测试- 识别技术评估，包括生物识别（欧洲计算电子基础设施） [28/12/19 之前]
CALVIN 研究组数据集- 使用眼动追踪的对象检测、imagenet 边界框、同步活动、火柴人和身体姿势、youtube 对象、面部、马、玩具、视觉属性、形状类（CALVIN 组）[28/12/19 之前]
CANTATA 视频和图像数据库索引站点(Multitel) [28/12/19 之前]
香港中文大学数据集-人脸素描、人脸对齐、图像搜索、公共广场观察、遮挡、中心站、麻省理工学院单相机和多相机轨迹、行人重识别（多媒体实验室）[28/12/19之前]
Computer Vision Homepage 测试图像数据库列表（Carnegie Mellon Univ） [28/12/19 之前]
计算机视觉实验室 OCR 数据库 (CVL OCR DB) - CVL OCR DB 是一个公共注释图像数据集，包含 120 个自然场景中文本的二进制注释图像。（Andrej Ikica 和 Peter Peer。）[28/12/19 之前]
ETHZ 各种数据集——包括 ETH 3D 头部姿势、BIWI 视听数据、ETHZ 形状类、BIWI 步行行人、行人、建筑物、4D MRI、个人事件、肝脏超声检查、食品 101。（苏黎世联邦理工学院，计算机视觉实验室）[28 岁之前/ 12/19]
事件相机数据集- 这展示了世界上第一个用于高速机器人的带有基于事件的相机的数据集（E. Mueggler、H. Rebecq、G. Gallego、T. Delbruck、D. Scaramuzza）[28/12 之前/19]
手指静脉 USM (FV-USM) 数据库- 红外手指图像数据库由手指静脉和手指几何信息组成。(Bakhtiar Affendi Rosdi, 马来西亚理科大学) [28/12/19前]
FVI：自由格式视频修复数据集- 来自 YouTube-VOS 和 YouTube-BoundingBox 的视频，可用于视频修复模型的训练和评估（Chang、Ya-Liang 等）[28/12/2020]
General 100 Dataset - General-100 数据集包含 100 张 bmp 格式的图像（无压缩），非常适合超分辨率训练（Dong、Chao 和 Loy、Chen Change 和 Tang、Xiaoou）[28/12/ 之前/ 19]
GPDS 孟加拉文和梵文合成签名数据库-孟加拉文和梵文签名的双离线和在线签名数据库。(Miguel A. Ferrer, GPDS, ULPGC) [28/12/19 之前]
GPDS 合成在线和离线签名数据库- 双离线和在线拉丁签名数据库。(Miguel A. Ferrer, GPDS, ULPGC) [28/12/19 之前]
HKU-IS - 4447 幅带有像素标记地面实况的图像，用于显着物体检测。（李冠斌、于益洲）【28/12/19前】
高分辨率 3D 模型- 它包括这些数据集的高分辨率渲染。（休伯特等）[28/12/19 之前]
I3 - Yahoo Flickr Creative Commons 100M - 此数据集包含照片和视频列表。（B. Thomee、DA Shamma、G. Friedland 等人）[28/12/19 之前]
国际。副. 模式识别技术委员会 TC11 关于文档文本阅读数据集的阅读系统索引[28/12/19 之前]
IDIAP 数据集集合- 26 个不同的数据集 - 多模态、攻击、生物识别、草书字符、话语、眼睛凝视、海报、玛雅手抄本、MOBIO、面部欺骗、游戏、手指静脉、youtube 个性特征（IDIAP 团队）[28 岁之前/ 12/19]
图像序列和数据集- 严重光照变化下的图像/严重光照变化下的彩色图像/严重光照变化下的全向图像 (G. Silveira 和 E. Malis) [1/2/21]
Kinect v2 数据集- 用于评估 kinect2 深度解码（Felix 等）中展开的数据集 [28/12/19 之前]
Laval HDR 天空数据库- 该数据库包含 800 张半球形的全 HDR 天空照片，可用于户外照明分析。(Jean-Francois Lalonde et al.) [28/12/19 之前]
Leibe 的人/车/对象数据库集(Bastian Leibe) [28/12/19 之前]
Lotus Hill Image Database Collection with Ground Truth (Sealeen Ren, Benjamin Yao, Michael Yang) [28/12/19 之前]
麻省理工学院显着性基准数据集- 集合（指向 23 个数据集的指针）（Bylinskii、Judd、Borji、Itti、Durand、Oliva、Torralba} [28/12/19 之前]
Michael Firman 的 RGBD 数据集列表[28/12/19 之前]
Msspoof:2D 多光谱人脸欺骗- 展示攻击（欺骗）数据集，包含来自真实数据主体和欺骗数据主体的样本，用纸对 NIR 和 VIS 相机（Idiap 研究所）[28/12/19 之前]
多视图立体评估- 每个数据集都注册了通过激光扫描过程获得的“真实”3D 模型（Steve Seitz 等人）[28/12/19 之前]
牛津杂项，包括巴菲、鲜花、电视人物、建筑物等（牛津视觉几何组）[28/12/19 之前]
PEIPA图像数据库汇总（Pilot European Image Processing Archive）【28/12/19之前】
PalmVein spoofing - 展示攻击（欺骗）数据集，其中包含来自欺骗数据主体（对应于 VERA Palmvein）的样本，用论文（Idiap 研究所）[28/12/19 之前]
RSBA 数据集- 用于评估卷帘门束调整的序列（Per-Erik 等）[28/12/19 之前]
Replay Attack:2D face spoofing - 展示攻击（欺骗）数据集，包含来自真实数据主体和欺骗数据主体的样本，使用纸张、照片和视频从移动设备到笔记本电脑执行。(Idiap研究所) [28/12/19前]
Replay Mobile:2D face spoofing - 展示攻击（欺骗）数据集，包含来自真实数据主体和欺骗数据主体的样本，这些样本是通过移动设备上的纸张、照片和视频执行的。(Idiap研究所) [28/12/19前]
Synthetic Sequence Generator - Synthetic Sequence Generator (G. Hamarneh) [28/12/19 之前]
USC Annotated Computer Vision Bibliography 数据库出版摘要(Keith Price) [28/12/19 之前]
USC-SIPI 图像数据库：纹理、航拍、收藏夹（例如 Lena）（USC Signal and Image Processing Institute）[28/12/19 之前]
伯尔尼大学关于手写、在线文档、字符串编辑和图形匹配的数据库（伯尔尼大学，计算机视觉和人工智能）[28/12/19 之前]
VERA Fingervein spoofing - 展示攻击（欺骗）数据集，其中包含来自欺骗数据主体（对应于 VERA Fingervein）的样本，用论文执行（Idiap 研究所）[28/12/19 之前]
VERA Fingervein - 具有使用开放式指静脉传感器记录的数据主体的指静脉数据集（Idiap 研究所）[28/12/19 之前]
VERA PalmVein:PalmVein - Palmvein 数据集，其中包含使用开放式掌静脉传感器记录的数据主体（Idiap 研究所）[28/12/19 之前]
航空影像中的车辆检测- VEDAI 是航空影像中车辆检测的数据集，作为在无约束环境中对自动目标识别算法进行基准测试的工具提供。(Sebastien Razakarivony 和 Frederic Jurie) [28/12/19 之前]
Video Stacking Dataset - 用于评估手机视频堆栈的数据集（Erik Ringaby 等）[28/12/19 之前]
从猫的角度看世界- 从自由行为的猫的头部录制的视频（Belinda Y. Betsch，Wolfgang Einh?user）[28/12/19 之前]
腕戴式摄像头视频数据集- 从腕戴式摄像头和头戴式摄像头捕获的日常生活视频活动（大西克典、金平敦、金崎麻子、原田达也）[28/12/19 之前]
Yummly-10k 数据集- 目标是了解人类的感知，在这种情况下是食物味道相似性。(康奈尔理工学院的 SE(3) Computer Vision Group) [28/12/19 之前]

各种各样的

3D 网格水印基准数据集(Guillaume Lavoue) [28/12/19 之前]
3D-ZeF - 在实验室环境中记录斑马鱼的具有挑战性的 3D 多目标跟踪基准数据集（Pedersen、Haurum、Bengtson、Moeslund）[27/12/2020]
4D 光场数据集- 24 个合成场景，具有 9x9x512x512x3 输入图像、深度和视差地面实况、相机参数和评估掩码。(Katrin Honauer, Ole Johannsen, Daniel Kondermann, Bastian Goldluecke) [28/12/19 之前]
Active Appearance Models 数据集(Mikkel B. Stegmann) [28/12/19 之前]
AF 4D 数据集- 根据我们的观察，我们确定了 10 个具有代表性的场景，这些场景分为三类：（1）没有人脸的场景（NF），（2）前景中有人脸的场景（FF），以及（3 ) 背景中有人脸的场景 (FB)。对于这些场景中的每一个，我们允许在纹理背景、相机是否移动以及场景中有多少类型的物体改变它们的方向（称为运动开关）方面进行不同的安排。(Abdullah Abuolaim, 约克大学) [28/12/19 之前]
飞机追踪（Ajmal Mian） [28/12/19 之前]
AMADI_LontarSet - 巴厘语棕榈叶手稿图像数据集，用于巴厘语脚本的二值化、逐字查询和孤立字符识别。（AMADI 项目等）[28/12/19 之前]
带注释的网络耳朵数据集（AWE 数据集） ——所有图像都是通过从已知人的互联网图像中裁剪耳朵来获取的。(Ziga Emersic, Vitomir Struc 和 Peter Peer) [28/12/19 之前]
Astypalaia 岩雕图像数据集- 史前岩雕的带注释照片，原位和在不同姿势和光照参数下拍摄（Tsigkas、Sfikas、Pasialis、Vlachopoulos、Nikou） [7/1/2021]
自主直升机着陆 (AHL) - 基于无约束视觉引导无人机的安全直升机着陆 (Arindam Sikdar,?Abhimanyu Sahu,?Debajit Sen,?Rohit Mahajan,?Ananda Chowdhury) [1/2/21]
BeDDE：用于去雾评估的基准数据集 - 用于单个图像去雾的真实基准数据集，包括在不同天气条件下收集的 208 个图像对，并且带有专为去雾任务设计的完整参考指标（例如，我们的 VI 和 RI） (赵;张;黄;沉;赵) [27/12/2020]
BODAIR Bogazici 大学-DeviantArt 图像重用数据库- 6 个类别（动物、食物、自然、地点、植物和预制背景）的 144 个库存图像和用它们创建的 1056 个艺术图像。(Isikdogan, Adiyaman, Akdag Salah, Salah) [1/2/21]
Brackish Dataset - 第一个公开可用的欧洲水下图像数据集，带有鱼、蟹和其他海洋生物的边界框注释（Pedersen、Haurum、Gade、Moeslund、Madsen） [27/12/2020]
California-ND - 来自个人照片集的 701 张照片，包括许多具有挑战性的现实生活中的非相同近乎重复的照片 (Vassilios Vonikakis) [28/12/19 之前]
Cambridge Motion-based Segmentation and Recognition Dataset (Brostow, Shotton, Fauqueur, Cipolla) [28/12/19 之前]
折反射相机标定图像（Yalin Bastanlar） [28/12/19前]
CED：彩色事件相机数据集- CED 包含来自 Color-DAVIS346 的彩色帧和彩色事件的 50 分钟镜头。（Scheerlinck、Rebecq、Stoffregen、Barnes、Mahony、Scaramuzza、RPG UZH 和 ETH Zurich）[27/12/ 2020]
Chars74K 数据集 - 74 个英语和卡纳达语字符(Teo de Campos - t.decampos@surrey.ac.uk) [28/12/19 之前]
CITIUS 视频数据库- 一个包含 72 个视频的数据库，带有眼动追踪数据，用于评估动态显着性视觉模型。(Xose) [28/12/19 之前]
COIN IMAGE DATASET - 硬币图像数据集是一个包含 60 类罗马共和国硬币的数据集。每个班级均以三幅背面硬币图像为代表，在奥地利维也纳美术博物馆（CVL，维也纳美术博物馆）的钱柜中获得 [1/2/21]
Columbia 相机响应函数：数据库 (DoRF) 和模型 (EMOR)（MD Grossberg 和 SK Nayar）[28/12/19 之前]
哥伦比亚污染物模式和散射参数数据库（Jinwei Gu、Ravi Ramamoorthi、Peter Belhumeur、Shree Nayar）[28/12/19 之前]
基线检测竞赛- 该数据集包含 ICDAR 2019 基线检测竞赛 (cBAD)（CVL、NCSR Demokritos）的训练、评估和测试集 [1/2/21]
综合灾害数据集 (CDD) - 5 个灾害类别和一个非灾害类别的数据集 (Fahim Faisal Niloy) [16/1/2021]
冲突升级解决 (CONFER) 数据库- 120 个视听剧集（约 142 分钟）来自电视政治辩论的自然互动，根据实际冲突强度逐帧注释。(Christos Georgakis, Yannis Panagakis, Stefanos Zafeiriou, Maja Pantic) [28/12/19前]
覆盖- 复制移动伪造 (CMFD) 图像及其具有相似但真实对象 (SGO) 的原始图像，突出并解决了流行方法的篡改检测模糊性，这是由自然图像中的自相似性引起的 (Wen, Zhu, Subramanian, Ng,沉和温克勒）[28/12/19 之前]
犯罪现场鞋类印象数据库- 犯罪现场和参考鞋类印象图像 (Adam Kortylewski) [28/12/19 之前]
CrowdFlow - 用于人群分析的光流数据集和基准（Gregory Schroeder、Tobias Senst、Erik Bochinski、Thomas Sikora）[28/12/19 之前]
用于自动分级系统的曲线跟踪数据库。- 用于评估我们的方法 Bandeirantes 和自动分级系统中的其他曲线追踪方法的 70 个公共图像的真实数据库。(Marcos A. Tejada Condori, Paulo AV Miranda) [28/12/19前]
CVL 数据库- CVL 数据库是用于作者检索、作者识别和单词识别的公共数据库。该数据库由 7 种不同的手写文本（1 种德语和 6 种英语文本）组成。(CVL, Kleber, Florian; Fiel, Stefan; Diem, Markus; Sablatnig, Robert) [1/2/21]
CVL 划线数据库- CVL 划线数据集是综合生成的，可以比较不同的划线去除方法。它基于 ICDAR 2013 手写分割数据库。(CVL, Diem, Markus, Kleber, Florian, Sablatnig, Robert) [1/2/21]
CVSSP 3D 数据存储库- 数据集旨在评估通用的多视图重建算法。(Armin Mustafa, Hansung Kim, Jean-Yves Guillemaut 和 Adrian Hilton) [28/12/19 之前]
D-HAZY - ：用于评估定量去雾算法的数据集（Cosmin Ancuti 等人）[28/12/19 之前]
DR(eye)VE - 驾驶员注意力数据集（摩德纳大学和雷焦艾米利亚大学）[28/12/19 之前]
DTU 控制的运动和照明图像数据集（135K 图像）（Henrik Aanaes）[28/12/19 之前]
视觉眼动数据库 (DOVES) - 从 29 位人类观察者观看 101 张自然校准图像时收集的一组眼动。(van der Linde, I., Rajashekar, U., Bovik, AC 等) [28/12/19 之前]
DeformIt 2.0 - 图像数据增强工具：使用来自单个图像分割对（Brian Booth 和 Ghassan Hamarneh）的地面实况分割模拟新图像 [28/12/19 之前]
密集室外对应地面实况数据集，用于光流和局部关键点评估(Christoph Strecha) [28/12/19 之前]
DVS09 - DVS128 动态视觉传感器硅视网膜- 包含样本 DVS 记录的数据集。（德尔布鲁克，神经信息学研究所，UZH 和 ETH Zurich）[27/12/2020]
DVSFLOW16 - DVS/DAVIS 光流数据集- “DVS 光流数据集包含一个场景的样本，包括盒子、移动正弦光栅和一个旋转圆盘。地面实况来自相机的 IMU 速率陀螺。”（Rueckauer, Delbruck, Institute of神经信息学，UZH 和 ETH Zurich) [27/12/2020]
DVSNOISE20 - 该数据集旨在根据真实传感器数据评估事件去噪算法的性能，并使用 DAVIS346 神经形态相机收集。（Almatrafi、Baldwin、Aizawa、Hirakawa）[27/12/2020]
EgoSocialRelation - 由可穿戴相机拍摄的图像序列数据集 (2fpm)，用于捕捉人们在野外的社交互动 (Aimar ES, Radeva P, Dimiccoli M.) [1/2/21]
EISATS : .enpeda.. Image Sequence Analysis Test Site (奥克兰大学多媒体影像组) [28/12/19前]
基于事件的空间态势感知 (EBSSA) 数据集- “EBSSA 数据集是对驻留空间物体、行星和恒星的基于事件的记录的集合。”（Afshar、Nicholson、van Schaik、Cohen）[27/12/2020 ]
无特征对象跟踪- 该数据集包含几个纹理有限的视频序列，用于视觉跟踪，包括手动注释的每帧姿势。(Lebeda, Hadfield, Matas, Bowden) [28/12/19 之前]
FlickrLogos-32 - 32 个产品徽标的 8240 张图片 (Stefan Romberg) [28/12/19 之前]
FORENSIC FOOTWEAR IMPRESSION - 在奥地利警方的帮助下使用采集线在不同条件下捕获了 300 双不同鞋子的多个鞋类印象。(CVL, BKA) [1/2/21]
General 100 Dataset - General-100 数据集包含 100 张 bmp 格式的图像（无压缩），非常适合超分辨率训练（Dong、Chao 和 Loy、Chen Change 和 Tang、Xiaoou）[28/12/ 之前/ 19]
Geometry2view - 此数据集包含用于 2 视图几何计算的图像对，包括手动注释的点坐标。(Lebeda, Matas, Chum) [28/12/19 之前]
手写数字和数字字符串识别竞赛- CVL 单个数字数据集由大约 60 位不同作者编写的 7000 个单个数字（每班 700 个数字）组成。验证集大小相同，但作者不同（CVL, Diem, Markus; Fiel, Stefan; Garz, Angelika; Keglevic, Manuel; Kleber, Florian; Sablatnig, Robert）[1/2/21]
汉诺威地区检测器评估数据集- 1.5 到 8 兆像素（Kai Cordes）多个图像分辨率下的特征检测器评估序列 [28/12/19 之前]
高质量帧 (HQF) 数据集- 数据集包含来自 DAVIS240C 的事件和真实帧，这些帧曝光良好且运动模糊程度最低。（Stoffregen、Scheerlinck、Scaramuzza、Drummond、Barnes、Kleeman、Mahony）[27/12/2020 ]
高速和 HDR 数据集- “这些序列在论文“带有事件摄像机的高速和高动态范围视频”中使用，包括来自事件摄像机的事件和来自 RGB 摄像机的图像。”（Rebecq，Scaramuzza，RPG UZH 和 ETH Zurich) [27/12/2020]
Hillclimb 和 CubicGlobe 数据集- 拉力赛车的视频，分为几个独立的镜头（用于视觉跟踪和建模）。(Lebeda, Hadfield, Bowden) [28/12/19 之前]
休斯顿多模式分心驾驶数据集- 68 名志愿者在四种不同条件（Dcosta、Buddharaju、Khatri 和 Pavlidis）下驾驶同一条模拟高速公路 [28/12/19 之前]
高光谱显着物体检测数据集（HS-SOD 数据集） - 高光谱（可见光谱）图像数据，用于对显着物体检测进行基准测试，其中包含 60 张高光谱图像，其各自的地面实况二进制图像和代表性渲染彩色图像（以 sRGB 呈现） . (Nevrez Imamoglu, Yu Oishi, Zhang Xiaoqiang Zhang, Guanqun Ding, Yuming Fang, Toru Kouyama, Ryosuke Nakamura) [28/12/19前]
I3 - Yahoo Flickr Creative Commons 100M - 此数据集包含照片和视频列表。（B. Thomee、DA Shamma、G. Friedland 等人）[28/12/19 之前]
ICDAR'15 智能手机文档捕获和 OCR 竞赛 - 挑战 2 - 在各种视角、照明等条件下使用智能手机捕获的文档图片。ground truth 是应该提取的文本内容。(Burie, Chazalon, Cousty, Eskenazi, Luqman, Mehri, Nayef, Ogier, Prum 和 Rusinol) [28/12/19 之前]
I- HAZE - 具有真实朦胧和无雾室内图像的去雾基准。(ethz) [28/12/19 之前]
INTEL-TAU 数据集- 它是最大的可用数据集用于照明估计，即颜色恒常性，研究。它还可以用于研究颜色阴影效果。（Firas Laakom、Jenni Raitoharju、Alexandros Iosifidis、Jarno Nikkanen 和 Moncef Gabbouj）[1/2/21]
Intrinsic Images in the Wild (IIW) - Intrinsic Images in the Wild，是一个大规模的公共数据集，用于评估室内场景的内在图像分解（Sean Bell、Kavita Bala、Noah Snavely）[28/12/19 之前]
IISc - 孤立对象之间的差异 (IISc-DIO) - 该数据集共有 26,675 个感知差异测量值，对 269 名人类受试者使用具有不同对象集的视觉搜索任务进行。(RT Pramod & SP Arun, IISc) [28/12/19 之前]
INRIA 特征检测器评估序列(Krystian Mikolajczyk) [28/12/19 之前]
图像/视频质量评估数据库汇总(Stefan Winkler) [28/12/19 之前]
INRIA 的 PERCEPTION 的图像和视频数据库由多个同步和校准的相机(INRIA Rhone-Alpes) 收集 [28/12/19 之前]
用于立体、光流和视觉里程计的 KITTI 数据集（Geiger、Lenz、Urtasun）[28/12/19 之前]
LabelMe 图像数据库和在线注释工具（Bryan Russell、Antonio Torralba、Kevin Murphy、William Freeman）[28/12/19 之前]
来自地面 LiDAR 扫描的大规模 3D 点云数据(Andreas Nuechter) [28/12/19 之前]
用于学习相关属性的 LFW-10 数据集- 包含 10,000 对人脸图像的数据集，具有 10 个属性的实例级注释。(CVIT, IIIT Hyderabad。) [28/12/19 之前]
光场材料数据集- 使用 Lytro ILLUM 相机拍摄的 12 个材料类别的 1.2k 注释图像（Ting-Chun Wang、Jun-Yan Zhu、Ebi Hiroaki、Manmohan Chandraker、Alexei Efros、Ravi Ramamoorthi）[28/12/19 之前]
Linkoping Rolling Shutter Rectification Dataset (Per-Erik Forssen 和 Erik Ringaby) [28/12/19 之前]
LIRIS-ACCEDE 数据集- 具有大量内容多样性的视频摘录集合，在情感维度上进行了注释（Technicolor）[28/12/19 之前]
MARIS Portofino 数据集- 描述圆柱形管道对象的水下立体图像数据集，收集用于测试对象检测和姿态估计算法。(RIMLab (Robotics and Intelligent Machines Laboratory), 帕尔马大学。) [28/12/19 之前]
上下文中的材料 (MINC) - 上下文中的材料 (MINC) 建立在 OpenSurfaces 之上，但包括数百万个材料标签的点注释。（肖恩·贝尔、保罗·厄普丘奇、诺亚·斯纳维利、卡维塔·巴拉）【28/12/19 之前】
MASSVIS（大规模可视化数据集） - 来自各种来源的超过 5K 种不同的信息可视化，其中一个子集已被分类、分割，并带有可记忆性和眼动追踪记录。(Borkin, Bylinskii, Kim, Oliva, Pfister) [28/12/19 之前]
MPI Sintel Flow Dataset用于评估来自开源 3D 动画短片 Sintel 的光流的数据集。它已针对立体和视差、深度和相机运动以及分割进行了扩展。(Max Planck Tubingen) [28/12/19 之前]
MPI-Sintel 光流评估数据集(Michael Black) [28/12/19 之前]
MSR-VTT - 200K+ 视频剪辑/句子对的视频到文本数据库 [28/12/19 之前]
Middlebury College 立体视觉研究数据集（Daniel Scharstein 和 Richard Szeliski）[28/12/19 之前]
使用椭圆对 2D 形状进行建模- 他的数据集包含 4,526 个 2D 形状，包括在标准数据集和自建数据集中。(Costas Panagiotakis 和 Antonis Argyros) [28/12/19 之前]
MSBin -多光谱文档二值化- 该数据集专用于多光谱图像的（文档图像）二值化。(CVL, Hollaus Fabian, Brenner Simon, Sablatnig Robert) [1/2/21]
Multi-FoV - 逼真的视频序列，允许对相机的视野 (FoV) 对各种视觉任务的影响进行基准测试。(张、瑞贝克、福斯特、斯卡拉穆扎) [28/12/19前]
多视图立体评估- 每个数据集都注册了通过激光扫描过程获得的“真实”3D 模型（Steve Seitz 等人）[28/12/19 之前]
多视角立体图像与基于激光的地面实况 (ESAT-PSI/VISICS,FGAN-FOM,EPFL/IC/ISIM/CVLab) [28/12/19 之前]
公开视频项目（Gary Marchionini, Barbara M. Wildemuth, Gary Geisler, Yaxiao Song） [28/12/19之前]
NCI 癌症图像档案- 前列腺图像（国家癌症研究所）[28/12/19 之前]
NIST 3D 兴趣点检测(Helin Dutagaci, Afzal Godil) [28/12/19 之前]
NRCS自然资源/农业图像数据库（USDA Natural Resources Conservation Service）【28/12/19前】
O- HAZE - 具有真实朦胧和无雾户外图像的去雾基准。(ethz) [28/12/19 之前]
用于域适应的对象识别数据集- 包含来自 4 个不同域的图像：艺术图像、剪贴画、产品图像和真实世界图像。对于每个域，数据集包含 65 个通常在办公室和家庭设置中找到的对象类别的图像。(Venkateswara Hemanth, Eusebio Jose, Chakraborty Shayok, Panchanathan Sethuraman) [28/12/19 之前]
对象去除- 使用合成光流的基于密集立体视觉的场景映射的广义动态对象去除 - 评估数据集 (Hamilton, OK, Breckon, Toby P.) [28/12/19 之前]
遮挡检测测试数据(Andrew Stein) [28/12/19 之前]
OpenSurfaces - OpenSurfaces 由数以万计的表面示例组成，这些示例从室内消费者照片中分割出来，并用材料参数、纹理信息和上下文信息进行注释。(Kavita Bala 等人) [28/12/19 之前]
OSIE - Object and Semantic Images and Eye-tracking - 700 张图像，5551 个分割对象，眼球追踪数据 (Xu, Jiang, Wang, Kankanhalli, Zhao) [28/12/19 之前]
Osnabrück 凝视跟踪数据- 来自几个不同凝视跟踪数据集的 318 个视频序列，带有基于多边形的对象注释（Schöning、Faion、Heidemann、Krumnack、Gert、Açik、Kietzmann、Heidemann 和 König）[28/12/19 之前]
OTIS：开放湍流图像集- 通过湍流大气进行远距离成像的几个序列（静态或动态）（Jerome Gilles、Nicholas B. Ferrante）[28/12/19 之前]
PanoNavi dataset - 用于机器人导航的全景数据集，由 5 个持续约 1 小时的视频组成。（凌言然）【28/12/19前】
PAVIS Leadership Corpus - 在会议环境中自动检测新兴领导者及其领导风格。（C. Beyan、N. Carissimi、S.Vascon、M. Bustreo、F. Capozzi、A. Pierro、C. Becchio 和 V. Murino）[1/2/21]
PCB DSLR数据集 - PCB DSLR 数据集旨在促进基于计算机视觉的印刷电路板 (PCB) 分析的研究，重点是与回收相关的应用（CVL、martin kampel；Christopher Pramerdorfer）[1/2/21 ]
PetroSurf3D - 26 次高分辨率（亚毫米精度）岩石艺术 3D 扫描，带有用于分割的岩画像素标记（Poier、Seidl、Zeppelzauer、Reinbacher、Schaich、Bellandi、Marretta、Bischof）[28/12/19 之前]
PHOS（光照不变性数据集） ——15个不同光照条件下拍摄的场景*15张图像（Vassilios Vonikakis）[28/12/19之前]
PIRM - 超分辨率基准的感知质量 (Blau, Y., Mechrez, R., Timofte, R., Michaeli, T., Zelnik-Manor, L) [28/12/19 之前]
PittsStereo-RGBNIR - 在匹兹堡收集的具有挑战性材料的大型 RGB-NIR 立体数据集。(Tiancheng Zhi, Bernardo R. Pires, Martial Hebert 和 Srinivasa G. Narasimha) [28/12/19 之前]
PRINTART：著名绘画印刷品的艺术图像，包括细节注释。使用该数据库进行自动注释和检索任务的基准已在 ECCV 上发布。(Nuno Miguel Pinho da Silva) [28/12/19 之前]
Pics 'n' Trails - 连续存档的 GPS 和数码照片数据集(Gamhewage Chaminda de Silva) [28/12/19 之前]
皮特图像和视频广告理解- 丰富的注释，包括广告的主题和情感、问题和答案，描述了观众被提示采取的行动以及广告为说服观众而提出的推理（侯赛因、张、张、叶、 Thomas, Agha, Ong, Kovashka (匹兹堡大学)> [28/12/19 之前]
RAWSEEDS SLAM 基准数据集（Rawseeds 项目） [28/12/19 之前]
阅读 ABP WI 数据集 - 几十年来的作家识别- 手通常被认为是一个人的独特特征，但是，在他们的整个生命周期中，它可能会略有变化。该数据集涵盖了单人笔迹进化的这一方面（CVL、Bistum Passau、READ）[1/2/21]
真正的低光图像降噪- 它包含像素和强度对齐的图像对，这些图像被低光相机噪声及其低噪声对应物损坏。(J. Anaya, A. Barbu) [28/12/19 之前]
Real-World Federated Visual Classification Dataset (Landmarks-User and iNaturalist-User) - 用于实际真实世界联邦学习的真实每用户数据 (Hsu, Qi, Brown) [27/12/2020]
RGB-DAVIS 数据集- 该数据集包含涉及使用 RGB-DAVIS 成像系统收集的相机运动和/或场景运动的室内和室外序列。 (Wang, Duan, Cossairt, Katsaggelos, Huang, Shi) [27/12/2020]
Roaming Panda - 一组带有真实解释的图像，用于解释图像分类器（Sun、Chockler、Huang、Kroening） [26/12/2020]
ROMA (ROad MArkings)：用于评估道路标记提取算法的图像数据库（Jean-Philippe Tarel 等）[28/12/19 之前]
Robotic 3D Scan Repository - 来自场景机器人实验的 3D 点云（Osnabruck 和 Jacobs 大学）[28/12/19 之前]
滚动快门校正数据集-校正来自手持设备（Per-Erik 等）的滚动快门视频 [28/12/19 之前]
RRC-60 罗马共和硬币数据集- 包含 6000 张罗马共和时期 (Sinem Aslan) 硬币类型的正面图像和相应的 6000 张反面图像 [3/1/20]
SALAMI - 我们引入了一个新的古代手稿图像可读性主观评估数据集 (SALAMI)，作为数字文本恢复领域定量评估指标开发的基本事实。(CVL, 西蒙·布伦纳) [1/2/21]
SALICON - 上下文眼动追踪数据集中的显着性 c。1000 张图像，包含 80 个图像类别中的眼动追踪数据。(江、黄、段、赵) [28/12/19前]
Scripps浮游生物相机系统- 数以千计的c。50 类浮游生物和其他小型海洋物体（Jaffe 等人） [28/12/19 之前]
ScriptNet: ICDAR2017 历史文献作者识别竞赛 (Historical-WI) - 该数据集由 13 至 20 世纪的 1100 多位作家撰写的 4782 页手写页面组成。(Fiel Stefan, Kleber Florian, Diem Markus, Christlein Vincent, Louloudis Georgios, Stamatopoulos Nikos, Gatos Basili) [28/12/19 之前]
Seam Carving JPEG Image Database - 我们的基于seam carving的伪造数据库包含500张未触及的JPEG图像和500张由seam-carving处理的JPEG图像，质量均为75（刘庆中）[28/12/19之前]
SIDIRE - SIDIRE 是一个免费提供的图像数据集，它提供合成生成的图像，允许研究光照变化对物体外观的影响。(CVL, 塞巴斯蒂安·赞巴尼尼) [1/2/21]
智能手机文档捕获和 OCR 2015 - 质量评估- 使用智能手机在各种视角、光照等条件下捕获的文档图片。它还具有文本地面实况和 OCR 准确性，以训练和测试文档图像质量评估系统。(Nayef, Luqman, Prum, Eskenazi, Chazalon, and Ogier) [28/12/19 之前]
智能手机文档捕获和 OCR 2017 - 移动视频捕获- 文档视频记录，以及使用视频流重建的参考地面实况图像。（Chazalon、Gomez-Kr?mer、Burie、Coustaty、Eskenazi、Luqman、Nayef、Rusi??ol、Sid??re 和 Ogier）[28/12/19 之前]
石溪大学真实世界杂波数据集 (SBU-RwC90) - 不同杂乱程度的图像，按人类排序（Chen-Ping Yu、Dimitris Samaras、Gregory Zelinsky）[28/12/19 之前]
Street-View Change Detection with Deconvolutional Networks - 包含来自街景图像的对齐图像对的数据库，其中包含结构、照明、天气和季节性变化。(Pablo F. Alcantarilla, Simon Stent, German Ros, Roberto Arroyo 和 Riccardo Gherardi) [28/12/19 之前]
SydneyHouse - 具有准确 3D 房屋形状、立面对象标签、密集点对应关系和注释工具箱的街景房屋图像。(航楚, 王神龙, Raquel Urtasun, Sanja Fidler) [28/12/19前]
SYNTHIA - 用于训练自动驾驶汽车的大型虚拟世界图像集（约半百万）。(计算机视觉中心ADAS组) [28/12/19之前]
石溪大学阴影数据集 (SBU-Shadow5k) - 来自各种场景和照片类型的大规模阴影检测数据集，带有人类注释（Tomas FY Vicente、Le Hou、Chen-Ping Yu、Minh Hoai、Dimitris Samaras）[之前28/12/19]
Technicolor Interestingness Dataset - 基于分类为有趣和非有趣样本的电影摘录和关键帧及其相应的地面实况文件的集合 (Technicolor) [28/12/19 之前]
Technicolor Hannah 数据集- 来自电影“汉娜和她的姐妹们”的 153,825 帧，注释了几种类型的音频和视频信息（Technicolor）[28/12/19 之前]
Technicolor HR-EEG4EMO 数据集- 在观看中性和情感视频期间收集的 40 名受试者的 EEG 和其他生理记录 (Technicolor) [28/12/19 之前]
Technicolor VSD Violent Scenes Dataset - 基于提取电影中暴力事件的地面实况文件集合（Technicolor）[28/12/19 之前]
TMAGIC 数据集- 用于视觉跟踪的几个视频序列，包含强烈的平面外旋转（Lebeda、Hadfield、Bowden）[28/12/19 之前]
Totally Looks Like - 用于预测基于人类的图像相似性的评估基准（Amir Rosenfeld、Markus D. Solbach、John Tsotsos）[28/12/19 之前]
图卢兹消失点数据集- 用于消失点估计的曼哈顿场景数据集，它还为每个图像提供相机方向的 IMU 数据。（文森特·安格拉东和西蒙娜·加斯帕里尼）【28/12/19 之前】
TUM RGB-D 基准- 用于评估 RGB-D 视觉里程计和 SLAM 算法的数据集和基准（BCrgen Sturm、Nikolas Engelhard、Felix Endres、Wolfram Burgard 和 Daniel Cremers）[28/12/19 之前]
UCL Ground Truth 光流数据集(Oisin Mac Aodha) [28/12/19 之前]
Underwater Single Image Color Restoration - 前瞻性水下图像数据集，可以使用立体成像的不同距离的颜色图表和地面真实距离对颜色恢复进行定量评估。(Berman, Levy, Avidan, Treibitz) [28/12/19 之前]
用于视差和光流评估的热那亚大学数据集(Manuela Chessa) [28/12/19 之前]
神经网络系统的验证与验证(Francesco Vivarelli) [28/12/19 之前]
超长基线干涉测量图像重建数据集(MIT CSAIL) [28/12/19 之前]
VIDIT：用于照明传输的虚拟图像数据集- 390 个 1024x1024 虚拟场景，每个场景都有 40 个照明设置，这些设置都是 5 种色温（2500K、3500K、4500K、5500K 和 6500K）和 8 个光方向（N、NE、E）的组合, SE, S, SW, W, NW)，将 15,600 张图像分成训练/验证/测试集。(El Helou, Zhou, Barthas, Süsstrunk) [27/12/2020]
Virtual KITTI - 从五个不同的虚拟世界生成的 40 个高分辨率视频（17,008 帧），用于：对象检测和多对象跟踪、场景级和实例级语义分割、光流和深度估计（Gaidon、Wang、 Cabon, Vig) [28/12/19 之前]
视觉对象跟踪挑战- 该挑战每年举行一次，作为 ICCV/ECCV 研讨会，每年都会有一个新的数据集和一个更新的评估套件。(Kristan et al.) [28/12/19 之前]
WHOI-Plankton - 103 个类别的 350 万张微型海洋浮游生物图像 (Olson, Sosik) [28/12/19 之前]
WILD：天气和照明数据库（S. Narasimhan、C. Wang. S. Nayar、D. Stolyarov、K. Garg、Y. Schechner、H. Peri）[28/12/19 之前]
YACCLAB 数据集- YACCLAB 数据集包括合成和真实二进制图像（Grana、Costantino；Bolelli、Federico；Baraldi、Lorenzo；Vezzani、Roberto）[28/12/19 之前]
YtLongTrack - 该数据集包含两个视频序列，具有低质量、极长和完全遮挡等挑战，包括手动注释的每帧姿势。(Lebeda, Hadfield, Matas, Bowden) [28/12/19 之前]