搬运: CVonline: 图像数据库(一) (更新于20190821)

最新推荐文章于 2022-10-20 20:45:28 发布

Horcham

最新推荐文章于 2022-10-20 20:45:28 发布

阅读量8.1k

点赞数 3

分类专栏：深度学习机器学习神经网络计算机视觉人脸识别

原文链接：http://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htm

版权

机器学习同时被 3 个专栏收录

12 篇文章

订阅专栏

深度学习

10 篇文章

订阅专栏

神经网络

8 篇文章

订阅专栏

本文提供了一个全面的计算机视觉图像和视频数据库列表，覆盖了从人脸识别到自动驾驶等多个领域，旨在帮助研究人员评估算法性能。文章还强调了数据集多样性和安全性的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CVonline：图像数据库

这是一个整理的图像和视频数据库列表，人们发现这些数据库对计算机视觉研究和算法评估很有用。

一篇重要文章我的测试数据有多好？介绍计算机视觉的安全分析（由Zendel，Murschitz，Humenberger和Herzner介绍）介绍了一种方法，用于确保您的数据集具有足够的多样性，数据集上的算法结果代表了在实际环境中可以预期的结果。特别是，该团队制作了可能导致算法出现问题的潜在危险清单（成像情况）。理想情况下，测试数据集应该包含相关危害的示例。

按主题索引

行动数据库

农业
属性识别
自动驾驶
生物/医药
相机校准
面部和眼睛/虹膜数据库
指纹
一般图像
一般RGBD和深度数据集
一般视频
手，手抓，手动和手势数据库
图像，视频和形状数据库检索
对象数据库
人（静态和动态），人体姿势
人员检测和跟踪数据库（另请参阅监视）
遥感
机器人
场景或场所，场景分割或分类
分割
同时定位和映射
监督和跟踪（另见人）
纹理
城市数据集
视觉与自然语言
其他收藏页面
杂项主题
其他有用的网站是：
1. 学术种子 - 计算机视觉 - 以BitTorrent形式提供的30多个大型数据集
2. 机器学习数据集 - 请参见CV选项卡
3. YACVID - 某些计算机视觉数据集的标记索引
行动数据库

另请参阅： Action Recognition的数据集摘要与联赛表（Gall，Kuehne，Bhattarai）。
20bn-Something-Something - 密集标记的视频剪辑，显示人类使用日常物品执行预定义的基本动作（Twenty Billion Neurons GmbH）
3D在线行动数据集 - 有七个行动类别（微软和南洋理工大学）
50沙拉 - 完整注释的4.5小时RGB-D视频+加速度计数据数据集，捕获25人准备两个混合沙拉（邓迪大学，塞巴斯蒂安斯坦）
办公活动的第一人称视觉数据集（FPVO） - FPVO包含使用12名参与者收集的办公活动的第一人称视频片段。（G. Abebe，A。Catala，A。Cavallaro）
ActivityNet - 人类活动理解的大型视频基准（200个课程，每班100个视频，648个视频小时）（Heilbron，Escorcia，Ghanem和Niebles）
视频中的动作检测 - MERL购物数据集由106个视频组成，每个视频的序列长约2分钟（Michael Jones，Tim Marks）
演员和动作数据集 - 3782个视频，七个类别的演员表演八种不同的动作（Xu，Hsieh，Xiong，Corso）
用于行动识别的各种标记视频数据集的分析整理（Kevin Murphy）
ASLAN动作相似性标记挑战数据库（Orit Kliper-Gross）
用于理解非结构化社交活动的属性学习 - 包含10种非结构化社交事件类别的视频数据库，以及69个属性的注释。（Y. Fu Fudan / QMUL，T。Hospedales Edinburgh / QMUL）
视听事件（AVE）数据集 - AVE数据集包含4143个YouTube视频，涵盖28个事件类别和AVE数据集中的视频，在时间上标有视听事件边界。（田亚鹏，景石，李伯辰，段志尧，徐晨亮）
AVA：原子视觉动作的视频数据集 - 430个15分钟电影剪辑中的80个原子视觉动作。（谷歌机器感知研究小组）
BBDB - 棒球数据库（BBDB）是一个大型棒球视频数据集，包含4200小时的完整棒球比赛视频，有400,000个临时注释的活动片段。（Shim，Minho，Young Hwi，Kyungmin，Kim，Seon Joo）
使用标记来交互人物视频数据（Scott Blunsden，Bob Fisher，Aroosha Laghaee）
BU动作数据集 - 三个图像动作数据集（BU101，BU101未过滤，BU203未过滤），与视频数据集UCF101和ActivityNet的类别1：1对应。（S. Ma，SA Bargal，J。Zhang，L。Sigal，S。Sclaroff。）
伯克利MHAD：综合多模人类行动数据库（Ferda Ofli）
伯克利多模人类行动数据库 - 扩展应用领域的五种不同模式（加州大学伯克利分校和约翰霍普金斯大学）
早餐数据集 - 这是一个包含1712个视频剪辑的数据集，显示10个厨房活动，这些活动被手工分割成48个原子动作类。（H. Kuehne，AB Arslan和T. Serre）
Bristol Egocentric Object Interactions数据集 - 包含从第一人称（以自我为中心）观点拍摄的视频，其中3-5个用户在六个不同的位置执行任务（Dima Damen，Teesid Leelaswassuk和Walterio Mayol-Cuevas，布里斯托尔大学）
布朗早餐行动数据集 - 70个小时，10个不同的早餐准备活动400万帧（Kuehne，Arslan和Serre）
CAD-120数据集 - 侧重于高级活动和对象交互（康奈尔大学）
CAD-60数据集 - CAD-60和CAD-120数据集包含人类活动的RGB-D视频序列（康奈尔大学）
CVBASE06：带注释的体育视频（Janez Pers）
Charades数据集 - 来自267名志愿者的10,000个视频，每个视频都注释了多个活动，字幕，对象和时间本地化。（Sigurdsson，Varol，Wang，Laptev，Farhadi，Gupta）
可组合活动数据集 - 26个原子动作的不同组合形成16个活动类别，由14个科目和注释提供（智利大学和智利大学）
人类跌倒的连续多模态多视图数据集 - 数据集包括正常日常活动和模拟跌倒，用于评估人体跌倒检测。（Thanh-Hai Tran）
康奈尔活动数据集CAD 60，CAD 120（康奈尔机器人学习实验室）
DMLSmartActions数据集 - 十六名受试者以自然的方式进行了12种不同的行动。（不列颠哥伦比亚大学）
DemCare数据集 - DemCare数据集由来自不同传感器的一组不同数据集合组成，可用于从可穿戴/深度和静态IP摄像机识别人类活动，用于Alzheimmer疾病检测的语音识别以及用于步态分析和异常检测的生理数据。（K. Avgerinakis，A.Karakostas，S.Vrochidis，I。Kompatsiaris）
包含深度的人类行动视频数据集 - 它包含23种不同的行动（中央研究院的CITI）
DogCentric活动数据集 - 从安装在*狗*上的相机拍摄的第一人称视频*（Michael Ryoo）
爱丁堡ceilidh头顶视频数据 - 从头顶上看到的16个地面舞蹈，10个舞者遵循结构化的舞蹈模式（2种不同的舞蹈）。该数据集对于高度结构化的行为理解非常有用（Aizeboje，Fisher）
EPIC-KITCHENS - 由32名参与者在其原生厨房环境中记录的以自我为中心的视频，非脚本日常活动，11.5M帧，39.6K帧级动作片段和454.2K物体边界框（Damen，Doughty，Fidler等）
EPFL绉纱烹饪视频 - 分析1920x1080分辨率的6种结构化烹饪活动（12）视频（Lee，Ognibene，Chang，Kim和Demiris）
ETS曲棍球比赛事件数据集 - 此数据集包含使用固定摄像头拍摄的两个曲棍球比赛的镜头。（M.-A. Carbonneau，AJ Raymond，E。Granger和G. Gagnon）
FCVID：复旦 - 哥伦比亚视频数据集 - 根据239个类别手动注释的91,223个网络视频（江，吴，王，薛，张）
SoccerNet - 用于在足球视频中进行动作发现的可扩展数据集：500个足球游戏，完全注释主要动作（目标，牌，潜艇）和超过13K的足球比赛，注释500K注释事件字幕和游戏摘要。（Silvio Giancola，Mohieddine Amine，Tarek Dghaily，Bernard Ghanem）
G3D - 使用Microsoft Kinect（Victoria Bloom）捕获的20个游戏动作的同步视频，深度和骨架数据
G3Di - 此数据集包含12个科目，分为6对（金斯顿大学）
游戏3D数据集 - 游戏场景中的实时动作识别（金斯顿大学）
佐治亚理工学院自我中心活动 - 凝视（+） - 人们观看的视频和他们的凝视位置（Fathi，Li，Rehg）
HMDB：大型人体运动数据库（Serre Lab）
好莱坞三维数据集 - 涵盖14个动作类（哈德菲尔德和鲍登）的650个3D视频剪辑
人类行动和场景数据集（Marcin Marszalek，Ivan Laptev，Cordelia Schmid）
人体搜索搜索人类注释器的序列，其任务是在AVA和THUMOS14数据集中发现动作。（Alwassel，H.，Caba Heilbron，F.，Ghanem，B。）
Hollywood Extended - 937个视频剪辑，总共787720帧，包含来自69部好莱坞电影的16种不同动作的序列。（Bojanowski，Lajugie，Bach，Laptev，Ponce，Schmid和Sivic）
HumanEva：用于评估关节人体运动的同步视频和运动捕捉数据集（布朗大学）
I-LIDS视频事件图像数据集（用于智能检测系统的图像库）（Paul Hosner）
I3DPost多视图人类行动数据集（Hansung Kim）
IAS-lab Action数据集 - 包含足够多的操作和执行操作的人数（帕多瓦大学的IAS实验室）
ICS-FORTH MHAD101行动共同分割 - 共享一个或多个共同动作共同分割的 101对长期动作序列，包含三维骨架和视频相关的基于帧的特征（克里特岛大学和FORTH-ICS， K. Papoutsakis）
IIIT极限运动 - 来自YouTube的160个第一人称（自我中心）体育视频，帧级注释为18个动作类。（Suriya Singh，Chetan Arora和CV Jawahar。轨迹对齐）
INRIA Xmas运动采集序列（IXMAS）（INRIA）
InfAR数据集 - 不同时间神经计算的红外动作识别（陈强强，杜银河，刘江，吕静，杨鲁宇，孟德玉，Alexander G. Hauptmann）
JHMDB：基于来自HMDB51的928个剪辑的HMDB数据集（J-HMDB）的关节，包括21个动作类别（Jhuang，Gall，Zuffi，Schmid和Black）
JPL第一人称互动数据集 - 从第一人称角度拍摄的7种人类活动视频（Michael S. Ryoo，JPL）
耶拿行动识别数据集 - 爱宝犬行动（Korner和Denzler）
K3Da - Kinect 3D主动数据集 - K3Da（Kinect 3D主动）是一个真实的临床相关人类动作数据集，包含骨架，深度数据和相关参与者信息（D. Leightley，MH Yap，J。Coulson，Y。Barnouin和JS McPhee）
动力学人类动作视频数据集 - 300,000个视频剪辑，400个人类动作classe，10秒剪辑，每个剪辑单个动作（Kay，Carreira，et al）
KIT Robo-Kitchen活动数据集 - 由17人组成的540张剪辑，进行12项复杂的厨房活动。（L。Rybok，S。Friedberger，UD Hanebeck，R。Stiefelhagen）
KTH人类行动识别数据库（KTH CVAP实验室）
卡尔斯鲁厄运动，意图和活动数据集（MINTA） - 7种类型的日常生活活动，包括完全运动的原始部分。（D。Gehrig，P。Krauthausen，L。Rybok，H。Kuehne，UD Hanebeck，T。Schultz， R. Stiefelhagen）
LIRIS人类活动数据集 - 包含（灰色/ rgb /深度）视频，显示人们进行各种活动（Christian Wolf等，法国国家科学研究中心）
MEXaction2动作检测和本地化数据集 - 支持开发和评估在相对较大的视频数据库中“发现”短行动实例的方法：77小时，117个视频（Michel Crucianu和Jenny Benois-Pineau）
MLB-YouTube - 棒球视频中的活动识别数据集（AJ Piergiovanni，Michael Ryoo）
时间数据集中的时刻 - 时间数据集中的时刻1M使用操作类型注释的3秒视频，这是用于在视频中识别和理解动作的最大数据集。（蒙福特，奥利瓦等人）
MPII烹饪活动数据集用于细粒度烹饪活动识别，其中还包括连续姿势估计挑战（Rohrbach，Amin，Andriluka和Schiele）
MPII Cooking 2数据集 - 细粒度烹饪活动的大型数据集，是MPII烹饪活动数据集的延伸。（Rohrbach，Rohrbach，Regneri，Amin，Andriluka，Pinkal，Schiele）
MSR-Action3D - 基准RGB-D动作数据集（Microsoft Research Redmond和University of Wollongong）
MSRActionPair数据集 - ：深度序列中活动识别的定向4D法线直方图（中佛罗里达大学和微软）
MSRC-12 Kinect手势数据集 - 来自执行12个手势的人的594个序列和719,359个帧（Microsoft Research Cambridge）
MSRC-12数据集 - 人体运动的序列，表示为身体部位，以及相关的姿势（Microsoft Research Cambridge and Cambridge of Cambridge）
MSRDailyActivity3D数据集 - 有16项活动（微软和西北大学）
ManiAc RGB-D动作数据集：不同的操纵动作，15种不同的版本，30种不同的操纵对象，20种长而复杂的链式操作序列（Eren Aksoy）
Mivia数据集 - 它由14个主题执行的7个高级动作组成。（Salemo大学的Mivia Lab）
MuHAVi - Multicamera人类行动视频数据（Hossein Ragheb）
多模态动作检测（MAD）数据集 - 它包含由20个主题执行的35个连续动作。（卡内基·梅隆大学）
多视图3D事件数据集 - 此数据集包括8个主题（加州大学洛杉矶分校）执行的8类事件
名古屋大学极低分辨率FIR图像动作数据集 - 由16x16低分辨率FIR传感器捕获的动作识别数据集。（名古屋大学）
NTU RGB + D动作识别数据集 - NTU RGB + D是用于人类动作识别的大规模数据集（Amir Shahroudy）
西北 - 加州大学洛杉矶分校Multiview Action 3D - 有10个行动类别:(西北大学和加州大学洛杉矶分校）
Office活动数据集 - 它由Kinect 2.0从执行常见办公活动的不同主体获取的骨架数据组成。（A. Franco，A。Magnani，D。Maiop）
牛津电视人体互动（牛津视觉几何组）
PA-HMDB51 - 具有潜在隐私泄漏属性的人类动作视频（592）数据集注释：肤色，性别，面部，裸露和关系（Wang，Wu，Wang，Wang，Jin）
议会 - 议会数据集是228个视频序列的集合，描绘了希腊议会的政治演讲。（Michalis Vrigkas，Christophoros Nikou，Ioannins A. kakadiaris）
程序性人类行动视频 - 该数据集包含大约40,000个用于人类动作识别的视频，这些视频是使用3D游戏引擎生成的。该数据集包含大约600万帧，其可用于训练和评估模型，不仅是动作识别，而且还用于深度图估计，光流，实例分割，语义分割，3D和2D姿势估计以及属性学习的模型。（Cesar Roberto de Souza）
RGB-D活动数据集 - 数据集中的每个视频包含2-7个涉及与不同对象交互的操作。（康奈尔大学和斯坦福大学）
RGBD-Action-Completion-2016 - 该数据集包括414个完整/不完整的对象交互序列，跨越六个动作并呈现RGB，深度和骨架数据。（Farnoosh Heidarivincheh，Majid Mirmehdi，Dima Damen）
基于RGB-D的动作识别数据集 - 包含不同rgb-d动作识别数据集的列表和链接的论文。（张静，李万庆，Philip O. Ogunbona，王必皓，唐昌）
RGBD-SAR数据集 - RGBD-SAR数据集（中国电子科技大学和微软）
罗切斯特日常生活活动数据集（Ross Messing）
SBU Kinect交互数据集 - 它包含八种类型的交互（Stony Brook大学）
SBU-Kinect-Interaction数据集v2.0 - 它包含进行交互活动的人类RGB-D视频序列（Kiwon Yun等）
SDHA 2010年人类活动语义描述 - 人类互动（Michael S. Ryoo，JK Aggarwal，Amit K. Roy-Chowdhury）
SDHA人类活动语义描述2010年比赛 - 空中观点（Michael S. Ryoo，JK Aggarwal，Amit K. Roy-Chowdhury）
SFU排球小组活动识别 - 排球视频的2级注释数据集（9个玩家的动作和8个场景的活动）。（M.Ibrahim，S。Muralidharan，Z。Deng，A。Vahdat和G. Mori / Simon Fraser大学）
SYSU 3D人 - 对象交互数据集 - 40个科目进行12项不同的活动（中山大学）
ShakeFive数据集 - 仅包含两个动作，即握手和高五。（Universitit Utrecht）
ShakeFive2 - 153个高清视频中8个类别的肢体水平注释的二元人体交互数据集（Coert van Gemeren，Ronald Poppe，Remco Veltkamp）
野外体育视频（SVW） - SVW由Coach Eye智能手机用户使用智能手机拍摄的4200个视频，这是TechSmith公司开发的体育培训的领先应用程序。（Seyed Morteza Safdarnejad，Xiaoming Liu）
斯坦福体育赛事数据集（贾莉）
利兹活动数据集 - 早餐（LAD - 早餐） - 由15个带注释的视频组成，代表五个不同的人吃早餐或其他简单的一餐; （John Folkesson等人）
THU-READ（清华大学RGB-D自我中心行动数据集） - THU-READ是用于RGBD视频中具有像素层手部注释的动作识别的大型数据集。（Yansong Tang，Yi Tian，Lu Jiwen Lu，Jianjiang Feng，Jie Zhou）
THUMOS - 在时间上未修剪的视频中的动作识别！ - 430小时的视频数据和4500万帧（Gorban，Idrees，Jiang，Zamir，Laptev Shah，Sukthanka）
TUM厨房数据集的日常操作活动（Moritz Tenorth，Jan Bandouch）
电视人体互动数据集（Alonso Patron-Perez）
下降检测数据集 - 两个场景中的六个主题连续执行了一系列操作（德克萨斯大学）
TJU数据集 - 包含在两个不同环境中由20个主题执行的22个动作; 共有1760个序列。（天津大学）
UCF-iPhone数据集 - 使用Apple iPhone 4智能手机上的惯性测量单元（IMU）从（6-9）个科目记录了9个有氧运动。（Corey McCall，Kishore Reddy和Mubarak Shah）
UPCV动作数据集 - 数据集由20个受试者两次执行的10个动作组成。（帕特雷大学）
UC-3D运动数据库 - 可用的数据类型包括高分辨率运动捕捉，通过Xsens的MVN Suit和Microsoft Kinect RGB以及深度图像采集。（葡萄牙科英布拉系统与机器人研究所）
UCF 101动作数据集 101动作类，超过13k片段和27小时视频数据（佛罗里达中部大学）
UCF-犯罪数据集：监控视频中的真实异常检测 - 用于监控视频中真实异常检测的大型数据集。它包括1900长和未经修剪的现实监控视频（128小时），包括13个现实异常，如战斗，交通事故，入室盗窃，抢劫等，以及正常活动。（中佛罗里达大学计算机视觉研究中心）
UCFKinect - 数据集由16个动作组成（中佛罗里达大学奥兰多分校）
加州大学洛杉矶分校人与人对象互动（HHOI）数据集Vn1 - RGB-D视频中的人机交互（Shu，Ryoo和Zhu）
加州大学洛杉矶分校人与人对象互动（HHOI）数据集Vn2 - RGB-D视频中的人机交互（第2版）（Shu，Gao，Ryoo和Zhu）
UCR Videoweb多摄像机广域活动数据集（Amit K. Roy-Chowdhury）
UTD-MHAD - 八名受试者进行了四次27次动作。（德克萨斯大学达拉斯分校）
UTKinect数据集 - 10个受试者（德克萨斯大学）进行了两次人类行为的十种类型
UWA3D多视图活动数据集 - 由10个人（西澳大利亚大学）进行了30项活动
佛罗里达中部大学 - 现实视频中的50个动作类别识别（3 GB）（Kishore Reddy）
佛罗里达中部大学 - ARG航空相机，屋顶摄像机和地面摄像机（UCF计算机视觉实验室）
佛罗里达中部大学 - 长片动作数据集（佛罗里达中部大学）
佛罗里达中部大学 - 体育行动数据集（佛罗里达中部大学）
佛罗里达中部大学 - YouTube动作数据集（体育）（佛罗里达中部大学）
未分类体育新闻视频 - 74个体育新闻视频数据库，标记有10类体育。旨在测试多标签视频标记。（T. Hospedales，爱丁堡/ QMUL）
乌得勒支多人运动基准（UMPM）。 - 基于动作捕捉数据的人物视频录像和基础事实的集合。（NP van der Aa，X。Luo，GJ Giezeman，RT Tan，RC Veltkamp。）
VIRAT视频数据集 - 从涉及人类和车辆的两大类活动（单一对象和双对象）中识别事件。（Sangmin Oh等）
维罗纳社交互动数据集（Marco Cristani）
ViHASi：虚拟人体动作剪影数据（用户ID：VIHASI密码：虚拟$虚拟）（Hossein Ragheb，金斯顿大学）
Videoweb（multicamera）活动数据集（B. Bhanu，G。Denina，C。Ding，A。Ivers，A。Kamal，C。Ravishankar，A。Roy-Chowdhury，B。Varda）
WVU多视图动作识别数据集（西弗吉尼亚大学）
WorkoutSU-10用于锻炼动作的Kinect数据集（Ceyhun Akgul）
WorkoutSU-10数据集 - 包含由专业培训师为治疗目的选择的锻炼行动。（萨班哲大学）
腕上摄像机视频数据集 - 对象操作（Ohnishi，Kanehira，Kanezaki，Harada）
YouCook - 带有注释的88个开源YouTube烹饪视频（Jason Corso）
YouTube-8M数据集 - 用于视频理解研究的大型多样化标签视频数据集（Google Inc.）
农业
1. 阿伯里斯特威斯叶评估数据集 - 用手标记的植物图像标记了一些时间步骤的叶级分割，以及来自植物牺牲的生物数据。（Bell，Jonathan; Dee，Hannah M.）
Fieldsafe - 农业中障碍物检测的多模态数据集。（奥胡斯大学）
KOMATSUNA数据集 - 数据集用于使用连续多视图RGB图像和深度图像进行叶子的实例分割，跟踪和重建。（九州大学Hideaki Uchiyama）
叶子计数数据集 - 估算小型植物生长阶段的数据集。（奥胡斯大学）
叶片分割挑战烟草和拟南芥植物图像（Hanno Scharr，Massimo Minervini，Andreas Fischbach，Sotirios A. Tsaftaris）
多物种果实花朵检测 - 该数据集由四组花卉图像组成，来自三种不同的树种：苹果，桃子和梨，以及伴随的地面真实图像。（Philipe A. Dias，Amy Tabb，Henry Medeiros）
植物表型分析数据集 - 适用于植物和叶子检测，分割，追踪和物种识别的植物数据（M. Minervini，A。Fischbach，H。Scharr，SA Tsaftaris）
植物幼苗数据集 - 12种杂草种的高分辨率图像。（奥胡斯大学）
属性识别
用于理解非结构化社交活动的属性学习 - 包含10种非结构化社交事件类别的视频数据库，以及69个属性的注释。（Y. Fu Fudan / QMUL，T。Hospedales Edinburgh / QMUL）
具有属性2 - 37322（自由许可）的动物50个动物类的图像，具有85个每类二进制属性。（Christoph H. Lampert，IST奥地利）
鸟类这个数据库包含6个不同类别的鸟类的600张图像（每个100个样本）。（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）
蝴蝶这个数据库包含719种不同类型蝴蝶的619张图像。（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）
CALVIN研究组数据集 - 使用眼动追踪，图像网络边界框，同步活动，火柴人和身体姿势，youtube对象，面部，马，玩具，视觉属性，形状类（CALVIN ggroup）进行对象检测
CelebA - 大型CelebFaces属性数据集（刘紫薇，罗平，王小刚，王小鸥）
DukeMTMC属性 - DukeMTMC-reID的23个行人属性（Lin，Zheng，Zheng，Wu和Yang）
EMOTIC（情境中的情绪） - 嵌入其自然环境中的人物（34357）的图像，用2种不同的情感表示进行注释。（Ronak kosti，Agata Lapedriza，Jose Alvarez，Adria Recasens）
拥有27个人类属性的HAT数据库（Gaurav Sharma，Frederic Jurie）
用于学习相对属性的LFW-10数据集 - 10,000对面部图像的数据集，具有10个属性的实例级注释。（CVIT，IIIT Hyderabad。）
市场-1501属性 - 1501名购物者的27个视觉属性。（林，郑，郑，吴，杨）
多级天气数据集 - 我们的多级基准数据集包含来自6个常见类别的65,000张图像，适用于晴天，阴天，下雨，下雪，阴霾和雷电天气。该数据集有益于天气分类和属性识别。（迪林）
个人照片集中的人物识别 - 我们引入了三个更难分割的评估和长期属性注释和每照片时间戳元数据。（哦，Seong Joon和Benenson，Rodrigo和Fritz，Mario和Schiele，Bernt）
UT-Zappos50K Shoes - 大型鞋类数据集，包含50,000个目录图像和超过50,000个成对相对属性标签，共11个细粒度属性（Aron Yu，Mark Stephenson，Kristen Grauman，UT Austin）
视觉属性数据集可视属性注释，用于超过500个对象类（动画和无生命），它们都在ImageNet中表示。每个对象类都使用基于636个属性的分类的视觉属性进行注释（例如，具有毛皮，由金属制成，是圆形的）。
视觉隐私（VISPR）数据集 - 隐私多标签数据集（22k图像，68隐私属性）（Orekondy，Schiele，Fritz）
WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，13789个图像属于30个场景类别，57524个人类边界框，每个用14个二进制属性注释。（Li，Yining和Huang，Chen和Loy，Chen Change and唐小鸥）
自动驾驶
AMUSE - 在多个测试驱动期间在真实交通场景中拍摄的汽车多传感器（AMUSE）数据集。（Philipp Koschorrek等）
自动驾驶 - 语义分割，行人检测，虚拟世界数据，远红外线，立体声，驾驶员监控。（CVC研究中心和UAB和UPC大学）
博世小交通灯数据集（BSTLD） - 用于交通灯检测，跟踪和分类的数据集。
DrivingStereo - 自动驾驶场景中立体匹配的大型数据集。涵盖多种驾驶场景的180k立体图像（杨，宋，黄，邓，石，周）
Boxy车辆检测数据集 - 一种车辆检测数据集，在200,000张图像中拥有199万个带注释的车辆。它包含AABB和关键点标签。
福特校园视觉和激光雷达数据集 - 来自专业（Applanix POS LV）和消费者（Xsens MTI-G）惯性测量单元（IMU），Velodyne 3D激光雷达扫描仪，两个推扫式前视Riegl激光雷达的时间注册数据，以及Point Grey Ladybug3全方位相机系统（Pandey，McBride，Eustice）
FRIDA（Foggy Road Image DAtabase）图像数据库 - 用于可见性和对比度恢复算法的性能评估的图像。FRIDA：18个城市道路场景的90幅合成图像。FRIDA2：330种不同道路场景的合成图像，其视点与车辆驾驶员的视点相近。（Tarel，Cord，Halmaoui，Gruyer，Hautiere）
House3D - House3D是一个虚拟3D环境，由数千个室内场景组成，这些场景配备了多种场景类型，布局和源自SUNCG数据集的对象。它包括超过45,000个室内3D场景，从工作室到带游泳池和健身室的两层房屋。所有3D对象都使用类别标签进行完全注释。环境中的代理可以访问多种模态的观察，包括RGB图像，深度，分割掩模和自上而下的2D地图视图。渲染器以每秒数千帧的速度运行，使其适用于大规模RL训练。（Yi Wu，Yuxin Wu，Georgia Gkioxari，Yuandong Tian，facebook research）
印度驾驶数据集（IDD） - 来自印度的非结构化驾驶条件，具有50,000帧（10,000个语义和40,000个粗略注释），用于训练自动驾驶汽车以查看使用对象检测，场景级和实例级语义分段（CVIT，IIIT Hyderabad和Intel ）
自动驾驶中的联合注意力（JAAD） - 数据集包括行人和汽车的实例，主要用于自主驾驶环境中的行为研究和检测。（Iuliia Kotseruba，Amir Rasouli和John K. Tsotsos）
LISA车辆检测数据集 - 在各种照明和交通条件下驾驶视频的第一人称色彩（Sivaraman，Trivedi）
LLAMAS无监督数据集 - 具有3d线，像素级虚线标记和各个线的曲线的100,000个图像的车道标记检测和分割数据集。
失物招领数据集 - 失物招领数据集解决了自动驾驶应用中发现意外的小型道路危险（通常由货物丢失引起）的问题。（Sebastian Ramos，Peter Pinggera，Stefan Gehrig，Uwe Franke，Rudolf Mester，Carsten Rother）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）
RESIDE（现实单图像去雾） - 目前最大规模的基准测试，包括合成和真实世界的模糊图像，用于图像去雾研究。RESIDE突出了各种数据源和图像内容，并提供各种培训或评估目的。（李博琪，任文琦，傅登攀，陶大成，丹峰，曾文君，王章阳）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
多车辆立体事件摄像机数据集 - 包含具有地面真实姿势，深度图和光流的立体对DAVIS 346b事件摄像机的多个序列。（lex Zihao Zhu，Dinesh Thakur，Tolga Ozaslan，Bernd Pfrommer，Vijay Kumar，Kostas Daniilidis）
图像和注释的SYNTHetic集合 - 在驾驶场景的背景下帮助语义分割和相关场景理解问题的目的。（计算机视觉中心，UAB）
TRoM：清华道路标记 - 这是一个有助于自动驾驶和ADAS道路标记分割领域的数据集。（刘晓龙，邓志东，曹乐乐，陆洪超）
密歇根大学北校区长期视野和激光雷达数据集 - 在15个月的时间内，在室内和室外，每周两次，每天不同的时间间隔，大约每两周一次。包括：移动障碍物（例如，行人，骑自行车和汽车），变化的照明，不同的观点，季节和天气变化（例如，落叶和雪），以及由施工引起的长期结构变化。包括地面真相姿势。（Carlevaris-Bianco，Ushani，Eustice）
UZH-FPV无人机赛车数据集 - 用于视觉惯性测距和SLAM。28个真实世界第一人称视角序列，包括室内和室外，包括图像，IMU，事件和地面实况（Delmerico，Cieslewski，Rebecq，Faessler，Scaramuzza）
生物/医药
2008年MICCAI MS病变分割挑战（美国国立卫生研究院神经科学研究蓝图）
ASU DR-AutoCC数据 - 糖尿病视网膜病变分类数据集的多实例学习特征空间（Ragav Venkatesan，Parag Chandakkar，Baoxin Li - 亚利桑那州立大学）
阿伯里斯特威斯叶评估数据集 - 用手标记的植物图像标记了一些时间步骤的叶级分割，以及来自植物牺牲的生物数据。（Bell，Jonathan; Dee，Hannah M.）
用于椎体定位基准的带注释的脊柱CT数据库，125名患者，242次扫描（Ben Glockern）
BRATS - 脑多参数磁共振图像中肿瘤结构的识别和分割（TU Munchen等）
乳腺超声数据集B - 2D乳腺超声图像，53个恶性病变和110个良性病变。（UDIAT诊断中心，MH Yap，R。Marti）
Calgary-Campinas公共脑MR数据集：来自三个不同供应商（GE，飞利浦和西门子）的扫描仪和两个磁场强度（1.5 T和3 T）的359名受试者获得了T1加权脑MRI。扫描对应于较老的成人受试者。（Souza，Roberto，Oeslle Lucena，Julia Garrafa，David Gobbi，Marina Saluzzi，Simone Appenzeller，Leticia Rittner，Richard Frayne和Roberto Lotufo）
CheXpert - 胸部X射线的大型数据集和自动胸部X射线解释的竞争，具有不确定性标签和放射科医师标记的参考标准评估集（Irvin，Rajpurkar等）
Cholec80：80个胆囊腹腔镜视频，注释了相位和工具信息。（Andru Putra Twinanda）
CRCHistoPhenotypes - 标记的细胞核数据 - 结肠直肠癌？组织学图像？由近30,000个点状核组成，超过22,000个细胞类型标记（Rajpoot + Sirinukunwattana）
Cavy Action Dataset - 16个序列，640 x 480分辨率，每秒7.5帧（fps），共有大约31621506帧（272 GB）相互作用的豚鼠（豚鼠）（Al-Raziqi和Denzler）
细胞跟踪挑战数据集 - 具有基本事实的2D / 3D延时视频序列（Ma等，Bioinformatics 30：1609-1617,2014）
计算机断层扫描肺气肿数据库（Lauge Sorensen）
COPD机器学习数据集 - 来自肺部计算机断层扫描（CT）图像的特征数据集的集合，可用于慢性阻塞性肺病（COPD）的诊断。该数据库中的图像被弱标记，即每个图像，给出诊断（COPD或无COPD），但不知道肺的哪些部分受到影响。此外，图像是在不同的站点和不同的扫描仪获得的。这些问题与机器学习中的两种学习场景有关，即多实例学习或弱监督学习，以及转移学习或领域适应。（Veronika Cheplygina，Isabel Pino Pena，Jesper Holst Pedersen，David A. Lynch，Lauge S.，Marleen de Bruijne）
CREMI：MICCAI 2016 Challenge - 神经组织，神经元和突触分割，突触伴侣注释的6卷电子显微镜。（Jan Funke，Stephan Saalfeld，Srini Turaga，Davi Bock，Eric Perlman）
CRIM13 Caltech Resident-Intruder Mouse数据集 - 237个10分钟视频（25 fps）注释动作（13个班级）（Burgos-Artizzu，Dollar，Lin，Anderson和Perona）
CVC冒号DB - 结肠镜检查视频的注释视频序列。它包含15个短的结肠镜检查序列，来自15个不同的研究。在每个序列中显示了一个息肉。（Bernal，Sanchez，Vilarino）
DIADEM：轴突和树突形态学竞赛的数字重建（艾伦脑科学研究所等）
DIARETDB1 - 标准糖尿病视网膜病变数据库（Lappeenranta Univ of Technology）
驱动：用于血管提取的数字视网膜图像（乌得勒支大学）
DeformIt 2.0 - 图像数据增强工具：使用单个图像分割对（Brian Booth和Ghassan Hamarneh）模拟具有地面真实分割的新颖图像
可变形图像配准实验室数据集 - 用于可变形图像配准（DIR）空间精度性能的客观和严格评估。（Richard Castillo等人）
DERMOFIT皮肤癌数据集 - 在相同的受控条件下捕获10个类别的1300个病灶。包括病变分割面罩（Fisher，Rees，Aldridge，Ballerini等）
皮肤镜检查图像（Eric Ehrsam）
EATMINT（用于中介INTeraction的情感意识工具）数据库 - EATMINT数据库包含协作设置中的情感和社交行为的多模态和多用户录制。（Guillaume Chanel，Gaelle Molinari，Thierry Pun，Mireille Betrancourt）
EPT29。这个数据库包含4841个样本的2613个样本，包括29个分类的EPT :( Tom等）
EyePACS - 视网膜图像数据库由300多万不同人群的视网膜图像组成，具有不同程度的糖尿病视网膜病变（EyePACS）
FIRE眼底图像注册数据集 - 134个视网膜图像对和注册真实性。（FORTH-ICS）
FMD - 荧光显微镜去噪数据集 --12,000个真实荧光显微镜图像（Zhang，Zhu，Nichols，Wang，Zhang，Smith，Howard）
组织学图像采集库（HICL） - HICL是来自各种疾病（例如脑癌，乳腺癌和HPV（人乳头瘤病毒） - 宫颈癌）的3870个病理图像（迄今为止）的汇编。（医学图像和信号处理（MEDISP）实验室，西阿提卡大学工程学院生物医学工程系）
蜜蜂分割数据集 - 它是一个数据集，包含蜂巢的2D表面上数百只蜜蜂的位置和方向角。（Bozek K，Hebert L，Mikheyev AS，Stephesn GJ）
IIT MBADA鼠标 - 小鼠行为数据。FLIR A315，空间分辨率为320 ?? 240px，30fps，50x50cm开放式竞技场，两位专家为三只不同的小鼠对，小鼠身份。（意大利技术研究所，PAVIS实验室）
印度糖尿病视网膜病变图像数据集 - 该数据集包括在像素级注释的视网膜眼底图像，用于与糖尿病视网膜病变相关的病变。此外，它提供了糖尿病性视网膜病和糖尿病性黄斑水肿的疾病严重性。该数据集可用于开发和评估用于早期检测糖尿病性视网膜病变的图像分析算法。（Prasanna Porwal，Samiksha Pachade，Ravi Kamble，Manesh Kokare，Girish Deshmukh，Vivek Sahasrabuddhe，Fabrice Meriaudeau）
IRMA（医学应用中的图像检索） - 该系列编辑匿名射线照片（Deserno TM，Ott B）
IVDM3Seg - 24个下颌骨至少7个IVD的 3D多模态MRI数据集，从12个不同阶段的受试者中收集（Zheng，Li，Belavy）
KID - 用于医疗决策支持的胶囊内窥镜数据库（Anastasios Koulaouzidis和Dimitris Iakovidis）
叶片分割挑战烟草和拟南芥植物图像（Hanno Scharr，Massimo Minervini，Andreas Fischbach，Sotirios A. Tsaftaris）
LIDC-IDRI - 肺部图像数据库联盟图像采集（LIDC-IDRI）包括诊断和肺癌筛查胸部计算机断层扫描（CT）扫描，带有标记的注释病变。
LITS肝脏肿瘤分割 - 130个3D CT扫描，肝脏和肝脏肿瘤的分割。公共基准与Codalab.org的排行榜（Patrick Christ）
乳房X线摄影图像分析主页 - 数据库链接的集合
医学图像数据库 - 基于真实情况的乳房异常超声图像数据库。（Stanislav Makhanov教授，biomedsiit.com）
迷你乳腺摄影数据库（乳腺图像分析学会）
麻省理工学院CBCL自动鼠标行为识别数据集（Nicholas Edelman）
蛾细粒度识别 - 675个类似的类，5344个图像（Erik Rodner等）
Mouse Embryo Tracking Database - 细胞分裂事件检测（Marcelo Cicconet，Kris Gunsalus）
MUCIC：马萨里克大学细胞图像采集 - 用于基准测试的细胞/组织的2D / 3D合成图像（马萨里克大学）
NIH胸部X射线数据集 - 112,120张X射线图像，疾病标签来自30,805名独特患者。（NIH）
OASIS - 开放获取系列成像研究 - 大脑的500多个MRI数据集（华盛顿大学，哈佛大学，生物医学信息学研究网络）
植物表型分析数据集 - 适用于植物和叶子检测，分割，追踪和物种识别的植物数据（M. Minervini，A。Fischbach，H。Scharr，SA Tsaftaris）
RatSI：大鼠社交互动数据集 - 9只完全注释（11级）视频（15分钟，25 FPS）的两只大鼠在笼子里进行社交互动（Malte Lorbach，Noldus Information Technology）
视网膜眼底图像 - 血管分叉和交叉的基本事实（格罗宁根大学）
SCORHE - 1,2和3个鼠标行为视频，9个行为，（Ghadi H. Salem，等，NIH）
SNEMI3D - EM图像中神经突的3D分割
视网膜的结构分析 - 描述（400+视网膜图像，具有地面真相分割和医学注释）
脊柱和心脏数据（伦敦安大略省数字成像组，硕力）
Stonefly9这个数据库包含772个石蝇（汤姆等）9个标本的3826张图像。
合成迁移细胞 -Six人工迁移细胞（中性粒细胞）超过98个时间帧，各种水平的高斯/泊松噪声和不同的路径特征与地面实况。（Constantino Carlos Reyes-Aldasoro博士等人）
UBFC-RPPG数据集 - 使用CMS50E透射式脉搏血氧仪（Bobbia，Macwan，Benezeth，Mansouri，Dubois）获取的远程光电容积描记图（rPPG）视频数据和地面实况
Uni Bremen Open，腹部手术RGB数据集 - 使用直接安装在患者上方的Kinect v2记录完整，开放式腹部手术，俯视患者和工作人员。（Joern Teuber，Gabriel Zachmann，不来梅大学）
佛罗里达中部大学 - DDSM：用于筛查乳腺摄影的数字数据库（佛罗里达中部大学）
VascuSynth - 具有基本事实的120个3D血管树状结构（Mengliu Zhao，Ghassan Hamarneh）
VascuSynth - 血管合成器以3D体积生成血管树。（Ghassan Hamarneh，Preet Jassi，Mengliu Zhao）
York心脏MRI数据集（Alexander Andreopoulos）
相机校准
折反射相机校准图像（Yalin Bastanlar）
GoPro-Gyro数据集 - 该数据集由许多广角滚动快门视频序列和相应的陀螺仪测量组成（Hannes等）
LO-RANSAC - 用于估计单应性和极线几何的LO-RANSAC库（K.Lebeda，J。Matas和O. Chum）
面部和眼睛/虹膜数据库
2D-3D人脸数据集 - 此数据集包括2D人脸图像对及其对应的具有几何细节的3D人脸几何模型。（郭玉东，张居勇，蔡剑飞，蒋博一，郑建民）
300个野外视频（300-VW） - 68个面部地标追踪（Chrysos，Antonakos，Zafeiriou，Snape，Shen，Kossaifi，Tzimiropoulos，Pantic）
3D面具攻击数据库（3DMAD） - 使用Kinect RGBD和眼睛位置的1765人中的76500帧（Sebastien Marcel）
3D面部表情 - 宾厄姆顿大学3D静态和动态面部表情数据库（Lijun Yin，Jeff Cohn和队友）
AginG Faces in the wild v2数据库描述：AGFW-v2由36,299个面部图像组成，分为11个年龄组，每组间隔5年。平均而言，每组有3,300张图像。AGFW-v2中的面部图像不是公众人物，不太可能有明显的化妆或面部修改，有助于在学习过程中嵌入准确的老化效果。（Chi Nhan Duong，Khoa Luu，Kha Gia Quach，Tien D. Bui）
用于面部和说话人识别的视听数据库（Mobile Biometry MOBIO http://www.mobioproject.org/）
BANCA面部和语音数据库（萨里大学）
Binghampton Univ 3D静态和动态面部表情数据库（Lijun Yin，Peter Gerhardstein和队友）
Binghamton-Pittsburgh 4D自发面部表情数据库 - 由2D自发面部表情视频和FACS代码组成。（Lijun Yin等人）
BioID人脸数据库（BioID组）
BioVid热痛数据库 - 该视频（和生物医学信号）数据集包含87名受试验诱导的热痛的研究参与者的面部和生理心理反应。（马格德堡大学（神经信息技术组）和乌尔姆大学（Emotion Lab））
生物识别数据库 - 与虹膜识别相关的生物识别数据库（Adam Czajka）
Biwi 3D视听语音情感语料库 - 1000个高质量，动态的面部3D扫描，同时发出一组英语句子。
博斯普鲁斯海峡3D / 2D数据库的FACS注释面部表情，头部姿势和面部遮挡（Bogazici大学）
漫画/ Photomates数据集 - 具有正面和相应的漫画线条图的数据集（Tayfun Akgul）
CASIA-IrisV3（中国科学院，TN Tan，Z。Sun）
CASIR Gaze Estimation数据库 - RGB和深度图像（来自Kinect V1.0）和面部特征的基础真值，对应于凝视估计基准的实验：（Filipe Ferreira等）
CMU面部表情数据库（CMU / MIT）
CMU Multi-PIE人脸数据库 - 超过750,000张337人的图像，在五个月内最多可记录四次。（杰夫科恩等人）
CMU姿势，照明和表达（PIE）数据库（Simon Baker）
CMU / MIT正面（CMU / MIT）
CMU / MIT正面（CMU / MIT）
CSSE面部的正面强度和范围图像（Ajmal Mian）
CelebA - 大型CelebFaces属性数据集（刘紫薇，罗平，王小刚，王小鸥）
Front--Profile in the Wild中的名人 - 500多张名人在正面和侧面视图中的图像（Sengupta，Cheng，Castillo，Patel，Chellappa，Jacobs）
Cohn-Kanade AU编码表达数据库 - 100多个受试者的500+表达序列，由激活的行动单位编码（Affect Analysis Group，匹兹堡大学）
Cohn-Kanade AU编码表达数据库 - 用于自动面部图像分析和合成以及感知研究的研究（Jeff Cohn等）
哥伦比亚凝视数据集 - 5,880个图像，56人，5个头部姿势和21个凝视方向（Brian A. Smith，Qi Yin，Steven K. Feiner，Shree K. Nayar）
计算机视觉实验室人脸数据库（CVL人脸数据库） - 数据库包含798张114人的图像，每人7张图像，可免费用于研究目的。（Peter Peer等）
深远的未来凝视 - 该数据集由55个受试者执行的搜索和检索任务的57个序列组成。每个视频片段持续约15分钟，帧速率为10 fps，帧分辨率为480×640。每个主题被要求搜索22个项目（包括挂绳，笔记本电脑）的列表并将它们移动到包装位置（餐桌）。（新加坡国立大学信息通信研究所）
DISFA +：自发面部行动数据库的延伸丹佛强度 - DISFA（MH Mahoor）的扩展
DISFA：自发面部行动数据库的丹佛强度 - 一个非摆姿势的面部表情数据库，适用于那些有兴趣开发自动行动单元检测的计算机算法及其由FACS描述的强度的人。（MH Mahoor）
DHF1K - 1000个精心挑选的视频序列，带有17个观众的注视注释。（沉建兵教授）
EURECOM面部化妆品数据库 - 389张图片，50人有/无化妆，有关化妆量和位置的注释。（Jean-Luc DUGELAY等）
EURECOM Kinect人脸数据库 - 52人，2个会话，9个变种，6个面部地标。（Jean-Luc DUGELAY等）
EYEDIAP数据集 - EYEDIAP数据集旨在训练和评估RGB和RGB-D数据的凝视估计算法。它包含多种参与者，头部姿势，凝视目标和感知条件。（Kenneth Funes和Jean-Marc Odobez）
Face2BMI数据集 Face2BMI数据集包含2103对面部，具有相应的性别，身高以及之前和当前的体重，允许训练可以从剖面图预测身体质量指数（BMI）的计算机视觉模型。（Enes Kocabey，Ferda Ofli，Yusuf Aytar，Javier Marin，Antonio Torralba，Ingmar Weber）
FDDB：人脸检测数据集和基准 - 研究无约束人脸检测（马萨诸塞大学计算机视觉实验室）
不同年龄人脸的FG-Net老龄化数据库（面部和手势识别研究网络）
人脸识别大挑战数据集（FRVT - 人脸识别供应商测试）
FMTV - 拉瓦尔脸部动作和延时视频数据库。238个热/视频科目，具有4年以上的各种姿势和面部表情（Ghiass，Bendada，Maldague）
面部超分辨率数据集 - 使用双摄像头设置（程超曲等）拍摄的地面真实HR-LR面部图像
FaceScrub - 拥有超过100,000人脸图像（530人）（50:50男性和女性）的数据集（H.-W. Ng，S。Winkler）
FaceTracer数据库 - 15,000张面孔（Neeraj Kumar，PN Belhumeur和SK Nayar）
面部表情数据集 - 该数据集由在现实世界条件下记录的242个面部视频（168,359帧）组成。（Daniel McDuff等人）
佛罗伦萨2D / 3D混合面数据集 - 弥合了2D，基于外观的识别技术和全3D方法之间的差距（Bagdanov，Del Bimbo和Masi）
面部识别技术（FERET）数据库（美国国家标准与技术研究院）
Gi4E数据库 - 眼睛跟踪数据库，使用标准网络摄像头拍摄1300多张图像，对应于不同的主体，注视屏幕上的不同点，包括地面真相2D虹膜和角点（Villanueva，Ponz，Sesma-Sanchez，Mikel Porta，和Cabeza）
谷歌面部表情比较数据集 - 一个大型的面部表情数据集，由面部图像三元组和人类注释组成，指定每个三元组中的哪两个面在面部表情方面形成最相似的对，这与主要关注的数据集不同离散情绪分类或行动单位检测（Vemulapalli，Agarwala）
Hannah和她的姐妹数据库 - 一个密集的视听人物导向的面部，语音片段，镜头边界的真实注释（Patrick Perez，Technicolor）
顶空数据集 - 顶空数据集是一组完整人体头部的3D图像，由1519名穿着紧身乳胶帽的受试者组成，以减少发型的影响。（Christian Duncan，Rachel Armstrong，Alder Hey Craniofacial Unit，英国利物浦）
香港脸部素描数据库
IDIAP头部姿势数据库（IHPD） - 数据集包含一组会议视频以及各个参与者的主要实际情况（约128分钟）（Sileye Ba和Jean-Marc Odobez）
IARPA Janus基准数据集 - IJB-A，IJB-B，IJB-C，FRVT（NIST）
IMDB-WIKI - 500k +带有年龄和性别标签的脸部图像（Rasmus Rothe，Radu Timofte，Luc Van Gool）
印度电影人脸数据库（IMFDB） - 一个大型无约束人脸数据库，包含来自100多个视频（Vijay Kumar和CV Jawahar）的100位印度演员的34512幅图像
伊朗人脸数据库 - IFDB是中东地区第一个图像数据库，包含年龄，姿势和表情的彩色面部图像，其主题范围为2-85。（Mohammad Mahdi Dehshibi）
日本女性面部表情（JAFFE）数据库（Michael J. Lyons）
LFW：野性的标记面孔 - 不受约束的面部识别
LS3D-W - 一个大型3D人脸对齐数据集，注释68个点，包含在“野外”设置中捕获的面部。（Adrian Bulat，Georgios Tzimiropoulos）
MAFA：MAsked FAces - 30,811张图片，带有35,806张标记的MAsked FAces，每张蒙面的6个主要属性。（葛志明，贾莉，叶启庭，赵珞）
化妆诱导面部欺骗（MIFS） - 试图破坏目标身份的107次化妆变形。还有其他数据集。（Antitza Dantcheva）
Mexculture142 - 墨西哥文化遗产和眼动追踪凝视（Montoya Obeso，Benois-Pineau，Garcia-Vazquez，Ramirez Acosta）
麻省理工学院CBCL人脸识别数据库（生物学和计算机学习中心）
麻省理工学院面部数据库整理（Ethan Meyers）
麻省理工学院眼动追踪数据库（1003张图片）（Judd等）
MMI面部表情数据库 - 包含75个科目的2900个视频和高分辨率静止图像，注释为FACS AU。
MORPH（颅面纵向形态人脸数据库）（北卡罗来纳大学威尔明顿分校）
MPIIGaze数据集 - 213,659个样本，在不同照明条件和自然头部运动下具有眼睛图像和凝视目标，每天使用时从15名参与者及其笔记本电脑中收集。（张旭聪，Yuguke Sugano，Mario Fritz，Andreas Bulling。）
曼彻斯特注释说话面部视频数据集（Timothy Cootes）
MegaFace - 100万面临边界框（Kemelmacher-Shlizerman，Seitz，Nech，Miller，Brossard）
音乐视频数据集 - 来自YouTube的8个音乐视频，用于在不受约束的环境中开发多面部跟踪算法（张顺，黄佳斌，杨明轩）
NIST面部识别大挑战（FRGC）（NIST）
NIST照片识别数据库（美国国家标准与技术研究院）
NRC-IIT面部视频数据库 - 该数据库包含一对短视频片段，每个片段显示坐在显示器前面的计算机用户的面部，展示各种面部表情和方向（Dmitry Gorodnichy）
Notre Dame Iris Image Dataset（Patrick J. Flynn）
巴黎圣母院的脸，红外线脸，3D脸，表情，人群和眼睛生物识别数据集（巴黎圣母院）
ORL人脸数据库：40人，10人观看（ATT剑桥实验室）
OUI-Adience Faces - 针对性别和年龄分类以及3D面部（OUI）的未过滤面部
牛津：面孔，鲜花，多视图，建筑物，物体类别，运动分割，仿射协变区域，misc（Oxford Visual Geometry Group）
Pandora - POSEidon：面向驾驶员姿势的深度（Borghi，Venturelli，Vezzani，Cucchiara）
PubFig：Public Figures Face Database（Neeraj Kumar，Alexander C. Berg，Peter N. Belhumeur和Shree K. Nayar）
QMUL-SurvFace - 一个大型人脸识别基准，专门用于实际监控人脸分析和匹配。（QMUL计算机视觉组）
重新标记在野外的面孔 - 原始图像，但使用“深漏斗”方法对齐。（马萨诸塞大学阿默斯特分校）
RT-GENE：在自然环境中进行实时眼睛注视估计 122,531张图像，在自由观察条件和大型相机距离下，受试者的地面真实眼睛注视和头部姿势标签（Fischer，Chang，Demiris，伦敦帝国理工学院）
S3DFM - 爱丁堡语音驱动的3D面部运动数据库。77个人重复说10个密码：1秒500帧/秒600x600像素{IR强度视频，注册深度图像}加同步44.1 Khz音频。还有26人（10次重复）在说话时移动头部（张，费舍尔）
人类视觉输入的凝视对齐记录中的显着特征 - 人类凝视 - 临时数据的结核“在野外”（Frank Schumann等）
微型面部运动的SAMM数据集 - 该数据集包含来自13个不同种族的32名参与者的159次自发微型面部运动。（A.Davison，C.Lansley，N.Costen，K.Tan，MHYap）
SCface - 监控摄像头人脸数据库（Mislav Grgic，Kresimir Delac，Sonja Grgic，Bozidar Klimpak）
SiblingsDB - SiblingsDB包含两个数据集，描述与兄弟关系相关的个人图像。（Politecnico di Torino /计算机图形和视觉组）
使用迭代方法解决机器人 - 世界手眼校准问题 - 生成这些数据集用于校准机器人 - 摄像机系统。（艾米塔布）
自发情绪多模式数据库（SEM-db） - 用HD RGB，面部深度和IR帧，EEG信号和眼睛注视数据记录的视觉刺激数据的非姿势反应（Fernandez。黑山，Gkelias，Argyriou）
UNBC-McMaster肩痛表达档案数据库 - 痛苦的数据：UNBC-McMaster肩痛表达档案数据库（Lucy等人）
约克3D耳朵数据集 - 约克3D耳朵数据集是一组500个3D耳朵图像，由详细的2D标记合成，并以Matlab格式（.mat）和PLY格式（.ply）提供。（Nick Pears，Hang Dai，Will Smith，约克大学）
特隆赫姆Kinect RGB-D人物重新识别数据集（Igor Barros Barbosa）
UB KinFace数据库 - 布法罗大学亲属验证和识别数据库
UBIRIS：嘈杂的可见波长虹膜图像数据库（贝拉大学）
UMDFaces - 来自22,000个视频和370,000个带注释静止图像的约370万个带注释的视频帧。（Ankan Bansal等人）
UPNA Head Pose数据库 - 头部姿势数据库，包含120个网络摄像头视频，包含引导移动序列和自由移动序列，包括地面真实头部姿势和自动注释的2D面部点。（亚利桑那州，Bengoechea，Villanueva，Cabeza）
UPNA合成头部姿势数据库 - UPNA头部姿势数据库的合成复制品，具有120个视频，其2D地面实况地标投影，相应的头部姿势基础事实，3D头部模型和相机参数。（Larumbe，Segura，Ariz，Bengoechea，Villanueva，Cabeza）
UTIRIS跨光谱虹膜图像数据库（Mahdi Hosseini）
UvA-NEMO微笑数据库 - 来自400名受试者的1240个微笑视频（597个自发和643个构成），包括年龄，性别和血缘关系注释（Gevers，Dibeklioglu，Salah）
VGGFace2 - VGGFace2是一个大型人脸识别数据集，涵盖了姿势，年龄，光照，种族和职业的巨大变化。（牛津视觉几何组）
VIPSL数据库 - VIPSL数据库用于面部素描 - 照片合成和识别的研究，包括200个科目（每个科目1张照片和5张草图）。（Nannan Wang）
视觉搜索零镜头数据库 - 在三个日益复杂的视觉搜索任务中收集人类眼睛跟踪数据：对象阵列，自然图像和Waldo图像。（Kreiman实验室）
VT-KFER：用于自发和非自发面部表情识别的基于Kinect的RGBD +时间数据集--3个主题，1,956个RGBD序列，3个姿势中的6个面部表情（Aly，Trubanova，Abbott，White和Youssef）
华盛顿面部表情数据库（FERG-DB） - 一个由6个程式化（Maya）角色组成的数据库，带有7个带注释的面部表情（Deepali Aneja，Alex Colburn，Gary Faigin，Linda Shapiro和Barbara Mones）
WebCaricature数据集 - WebCaricature数据集是一个大型的照片漫画数据集，由来自网络收集的252个人的6042幅漫画和5974张照片组成。（景火，李文斌，史英桓，杨高，胡钧军）
更广泛的脸部：人脸检测基准 - 32,203张图像，393,703张标记面，61个活动类（Shuo Yang，Ping Luo，Chen Change Loy，Xiaoou Tang）
XM2VTS Face视频序列（295）：扩展的M2VTS数据库（XM2VTS） -（萨里大学）
耶鲁人脸数据库 - 10人的11个表达（A. Georghaides）
耶鲁人脸数据库B - 576人观看条件10人（A. Georghaides）
约克大学眼动追踪数据集（120图像）（Neil Bruce）
YouTube Faces DB - 1,525个不同的人的3,425个视频。（Wolf，Hassner，Maoz）
苏黎世自然图像 - 用于在一系列眼动追踪研究中创建自然刺激的图像材料（Frey等人）
指纹
FVC指法验证竞赛2002年数据集（博洛尼亚大学）
FVC指法验证竞赛2004年数据集（博洛尼亚大学）
指纹手册Minutiae Marker（FM3）数据库： - 指纹手动细节标记（FM3）数据库（Mehmet Kayaoglu，Berkay Topcu和Umut Uludag）
NIST指纹数据库（美国国家标准与技术研究院）
SPD2010指纹奇点检测竞赛（SPD 2010委员会）
一般图像
用于实际低光图像降噪的数据集 - 它包含由低光照相机噪声和低噪声对应物破坏的像素和强度对齐图像对。（J. Anaya，A。Barbu）
与Vincent van Gogh相关的绘画数据库 - 这是为“从印象派到表现主义：自动识别梵高的绘画”（Guilherme Folego和Otavio Gomes和Anderson Rocha）的论文建立的数据集VGDB-2016
AMOS：许多户外场景档案（20 + m）（Nathan Jacobs）
航拍图像使用不变的颜色特征和阴影信息从航拍图像构建检测。（Beril Sirmacek）
近似重叠误差数据集具有稀疏地面实况匹配集的图像对，用于评估局部图像描述符（Fabio Bellavia）
AutoDA（自动数据集扩充） - 自动构建的图像数据集，包括1250万张图像，其中包含1000种ILSVRC2012（Bai，Yang，Ma，Zhao）的相关文本信息
BGU自然场景高光谱图像数据库（Ohad Ben-Shahar和Boaz Arad）
布朗大学二元图像数据库（Ben Kimia）
Butterfly-200 - Butterfly-20是用于细粒度图像分类的图像数据集，其包含25,279个图像并且涵盖200种，116属，23个亚科和5个家族的四个级别类别。（陈天水）
CMP Facade数据库 - 包括来自不同地方的606个矫正图像，其中有12个建筑类注释。（Radim Tylecek）
加州理工学院 - UCSD Birds-200-2011（Catherine Wah）
颜色校正数据集 - 基于Homography的注册图像，用于评估图像拼接的颜色校正算法。（法比奥贝拉维亚）
哥伦比亚多光谱图像数据库（F. Yasuma，T。Mitsunaga，D。Iso和SK Nayar）
DAQUAR（视觉图灵挑战） - 包含关于真实世界室内场景的问题和答案的数据集。（Mateusz Malinowski，Mario Fritz）
达姆施塔特噪声数据集 - 50对真实噪声图像和相应的地面实况图像（RAW和sRGB）（Tobias Plotz和Stefan Roth）
美国电影预告片2010-2014数据集 - 包含474个好莱坞电影预告片的链接以及相关的元数据（流派，预算，运行时，发布，MPAA评级，发布的屏幕，续集指标）（USC信号分析和解释实验室）
DIML Multimodal Benchmark - 评估光度和几何变化下的匹配性能，100张1200 x 800尺寸的图像。（延世大学）
DSLR照片增强数据集（DPED） - 由三个智能手机和一个数码单反相机在野外同步拍摄的22K照片，用于比较来自多个低质量图像（Ignatov，Kobyshev，Timofte，Vanhoey和Van Gool）的高质量图像。
Flickr风格 - 80K Flickr照片注释20个精选风格标签，85K绘画注释25个风格/流派标签（Sergey Karayev）
Flickr1024：立体图像数据集超分辨率 - 1024个高质量图像配对并涵盖多种情景（Wang，Wang，Yang，An，Guo）
Forth Multispectral Imaging Datasets - 来自5幅绘画的23个光谱带的图像。图像用地面实况数据注释。（Karamaoynas Polykarpos等）
General 100 Dataset - General-100数据集包含100个bmp格式图像（无压缩），非常适合超分辨率训练（Dong，Chao和Loy，Chen Change和Tang，Xiaoou）
GOPRO数据集 - 具有清晰图像基础事实的模糊图像数据集（Nah，Kim和Lee）
HIPR2图像不同类型图像的目录（Bob Fisher等）
HPatches - 手工和学习本地描述符的基准和评估（Balntas，Lenc，Vedaldi，Mikolajczyk）
用于自然场景中局部照明的空间分布的高光谱图像 - 用于嵌入用于局部照明估计的探测球体的自然场景的30个校准的高光谱辐射图像。（Nascimento，Amano和Foster）
自然场景的高光谱图像 - 2002（David H. Foster）
自然场景的高光谱图像 - 2004（David H. Foster）
ISPRS多平台摄影测量数据集 - 1：最低点和斜空间图像加2：无人机和地面图像组合（Francesco Nex和Markus Gerke）
LIVE的图像和视频质量评估 - 用于开发图像质量算法（德克萨斯大学奥斯汀分校）
ImageNet大规模视觉识别挑战 - 目前有200个对象类和500 + K图像（Alex Berg，Jia Deng，Fei-Fei Li等）
ImageNet语言组织（WordNet）分层图像数据库 - 10E7图像，15K类别（李飞飞，贾登，郝素，李凯）
通过低成本全方位机器人改进的高性能结构3D稀疏映射 - 评估数据集 - 研究论文中使用的数据集：10.1109 / ICIP.2015.7351744（Breckon，Toby P.，Cavestany，Pedro）
Kodak McMaster demosaic数据集 - （Zhang，Wu，Buades，Li）
LabelMeFacade数据库 - 945标记的建筑图像（Erik Rodner等）
局部照明高光谱辐射图像 - 用于局部照明估计的嵌入探测球体的自然场景的30个高光谱辐射图像（Sgio MC Nascimento，Kinjiro Amano，David H. Foster）
麦吉尔校准彩色图像数据库（Adriana Olmos和Fred Kingdom）
乘法失真图像数据库 - 用于评估多重失真图像上图像质量评估指标结果的数据库。（周飞）
NPRgeneral - 用于评估图像样式算法的标准化图像集合。（David Mold，Paul Rosin）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）
NYU对称数据库 - 176个单对称和63个多对称图像（Marcelo Cicconet和Davi Geiger）
OceanDark数据集 - 来自东北太平洋水下站点的100个低照度水下图像。1400x1000像素，不同的照明和录制条件（Ocean Networks Canada）
OTCBVS Thermal Imagery基准数据集（俄亥俄州立大学队）
PAnorama Sparsely STructured Areas数据集 - 用于评估图像对齐的PASSTA数据集（Andreas Robinson）
QMUL-OpenLogo - 用于测试模型概括功能的徽标检测基准，用于检测自然场景中的各种徽标对象，其中大多数徽标类未标记。（QMUL计算机视觉组）
RESIDE（现实单图像去雾） - 目前最大规模的基准测试，包括合成和真实世界的模糊图像，用于图像去雾研究。RESIDE突出了各种数据源和图像内容，并提供各种培训或评估目的。（李博琪，任文琦，傅登攀，陶大成，丹峰，曾文君，王章阳）
Rijksmuseum Challenge 2014 - 它由来自rijksmuseum的100K艺术品组成，并附带描述每个物体的大量xml文件。（Thomas Mensink和Jan van Gemert）
在黑暗中看到 - 77 Gb的黑暗图像（Chen，Chen，Xu和Koltun）
智能手机图像去噪数据集（SIDD） - 智能手机图像去噪数据集（SIDD）包含大约30,000个噪声图像，在原始RGB和sRGB空间中使用相应的高质量地面实况，使用五个代表智能手机相机从10个具有不同光照条件的场景获得。（Abdelrahman Abdelhamed，Stephen Lin，Michael S. Brown）
斯坦福街景图像，姿势和3D城市数据集 - 街景图像（2500万图像和118个匹配图像对）的大规模数据集及其相对相机姿态，城市的3D模型和图像的3D元数据。（Zamir，Wekel，Agrawal，Malik，Savarese）
TESTIMAGES - 大量免费收集样本图像，用于不同类型显示器（即监视器，电视和数字电影放映机）的分析和质量评估以及图像处理技术。（Nicola Asuni）
康斯坦茨视觉质量数据库 - 用于开发和评估视觉质量评估算法的大型图像和视频数据库。（康斯坦茨大学MMSP小组）
自然场景的时间推移高光谱辐射图像 - 一天中拍摄的自然场景的7-9校准高光谱辐射图像的四个延时序列。（Foster，DH，Amano，K。，＆Nascimento，SMC）
延时高光谱辐射图像 - 自然场景的7-9校准高光谱图像的四个延时序列，间隔为10nm的光谱（David H. Foster，Kinjiro Amano，Sgio MC Nascimento）
Tiny Images数据集 7900万32x32彩色图像（Fergus，Torralba，Freeman）
TURBID数据集 - 降级图像的五个不同子集及其各自的地面实况。子集Milk和DeepBlue每个有20个图像，子叶绿素有42个图像（Amanda Duarte）
UT Snap Angle 360°数据集 - 来自youtube的四个活动（迪士尼，游行，滑雪，音乐会）的360°视频列表（Kristen Grauman，UT Austin）
UT Snap Point数据集 - 人类对来自UT Egocentric数据集和新收集的移动机器人数据集的帧子集的捕捉点质量的判断（帧也包括在内）（Bo Xiong，Kristen Grauman，UT Austin）
视觉对话 - 在COCO图像上进行120k人 - 人对话，每对话10轮QA（Das，Kottur，Gupta，Singh，Yadav，Moura，Parikh，Batra）
视觉问题回答 - 254K imags，764K问题，基本事实（Agrawal，Lu，Antol，Mitchell，Zitnick，Batra，Parikh）
视觉问题生成 --15k图像（包括以物体为中心和以事件为中心的图像），75k自然问题询问可以引起进一步对话的图像（Nasrin Mostafazadeh，Ishan Misra，Jacob Devlin，Margaret Mitchell，Xiao Dong He，Lucy Vanderwende ）
VQA Human Attention - 用于视觉问答的60k人类注意力图，即人类选择回答图像问题的地方（Das，Agrawal，Zitnick，Parikh，Batra）
Wild Web篡改图像数据集 - 来自Web和社交媒体源的大量篡改图像，包括用于篡改本地化的地面实况注释掩码（Markos Zampoglou，Symeon Papadopoulos）
YFCC100M：多媒体研究的新数据 - 这个公开提供的1亿张照片和视频的策划数据集对所有人来说都是免费且合法的。（Bart Thomee，雅虎实验室和旧金山的Flickr等）
一般RGBD和深度数据集

注意：有3D数据集其他地方也是如此，例如在对象，场景和动作。

另请参见：RGBD数据集列表。
360D - 来自22096个独特视点的成对颜色和深度360球面全景图的数据集，用于评估全向密集深度估计方法。（Nikolaos Zioulis，Antonis Karakottas，Dimitrios Zarpalas，Petros Daras）
3D打印RGB-D对象数据集 - 具有groundtruth CAD模型和摄像机轨迹的5个对象，使用各种质量的RGB-D传感器进行记录。（西门子和TUM）
3DCOMET - 3DCOMET是用于测试3D数据压缩方法的数据集。（Miguel Cazorla，Javier Navarrete，Vicente Morell，Miguel Cazorla，Diego Viejo，Jose Garcia-Rodriguez，Sergio Orts。）
3D铰接式车身 - 具有旋转和平移的铰接式车身的3D重建。单摄像头，变焦。每个场景都可能有一个铰接的身体移动。包括四种数据集。包括仅使用场景的四个图像的样本重建结果。（Jihun Park教授）
用于从RGB-D数据进行非刚性重建的数据集 - 用于从RGB-D数据重建非刚性几何的八个场景，每个场景包含数百帧以及我们的结果。（Matthias Innmann，Michael Zollhoefer，Matthias Niessner，Christian Theobalt，Marc Stamminger）
大型对象扫描数据集 - 9个casses中的392个对象，每个数百帧（Choi，Zhou，Miller，Koltun）
铰接式物体挑战 - 4个铰接物体，由一维旋转和棱柱关节连接的刚性部件组成，7000 + RGBD图像带有6D姿态估计注释（Frank Michel，Alexander Krull，Eric Brachmann，Michael.Y.Yang，Stefan Gumhold，Carsten Rother ）
BigBIRD - 每个对象有100个对象，600个3D点云和600个高分辨率彩色图像，涵盖所有视图（Singh，Sha，Narayan，Achim，Abbeel）
CAESAR美国民用和欧洲表面人体测量资源项目 - 4000个3D人体扫描（SAE International）
CIN 2D + 3D对象分类数据集 - 来自18种常见家庭和办公室对象的对象的分段颜色和深度图像（Bjorn Browatzki等）
CoRBS - RGB-D SLAM基准测试，提供真实深度和颜色数据的组合，以及相机的地面实况轨迹和场景的真实3D模型（Oliver Wasenmuller）
CSIRO综合变形人 - 用于评估非刚性三维重建的合成RGBD数据集：2个主体和4个摄像机轨迹（Elanattil和Moghadam）
CTU服装折叠照片数据集 - 服装折叠的各个阶段的颜色和深度图像。（Sushkov R.，Melkumov I.，Smutn y V.（布拉格捷克技术大学））
CTU Garment Sorting Dataset - 服装图像，详细立体图像，深度图像和重量的数据集。（Petrik V.，Wagner L.（布拉格捷克技术大学））
服装零件数据集 - 服装零件数据集包括图像和深度扫描，使用Kinect获取，服装放在桌子上，使用多边形面具有超过一千个部分注释（衣领，袖口，帽子等）。（Arnau Ramisa， Guillem Aleny，Francesc Moreno-Noguer和Carme Torras）
Cornell-RGBD-Dataset - 办公场景（Hema Koppula）
CVSSP动态RGBD建模2015 - 该数据集包含使用Kinect V1 / V2捕获的一般动态场景的八个RGBD序列以及两个合成序列。（Charles Malleson，萨里大学CVSSP）
可变形3D重建数据集 - 动态移动机械玩具的两个单流RGB-D序列以及规范静止姿势中的地面真实3D模型。（西门子，TUM）
代尔夫特风车内部和外部激光扫描点云（Beril Sirmacek）
Diabetes60 - 60种西式菜肴的RGB-D图像，自制。使用Microsoft Kinect V2记录数据。（Patrick Christ和Sebastian Schlecht）
ETH3D - 用于多视图立体声和3D重建的基准测试，涵盖各种室内和室外场景，通过高精度激光扫描仪获取地面实况。（Thomas Sch ?? ps，Johannes L. Sch ?? nberger，Silvano Galliani，Torsten Sattler，Konrad Schindler，Marc Pollefeys，Andreas Geiger）
EURECOM Kinect Face数据库 - 52人，2个会话，9个变种，6个面部地标。（Jean-Luc DUGELAY等人）
G4S元房间 - RGB-D数据150次扫描，每次扫描18个图像。（John Folkesson等人）
Georgiatech-Metz Symphony Lake数据集 - 来自121次湖岸调查的超过4年的500万RGBD户外图像。（格里菲斯和普拉迪利耶）
Goldfinch：GOogLe图像搜索数据集为FINe粒度CHallenges - 一个大型数据集，用于细粒鸟（11K种），蝴蝶（14K种），飞机（409种）和狗（515品种）识别。（Jonathan Krause，Benjamin Sapp， Andrew Howard，Howard Zhou，Alexander Toshev，Tom Duerig，James Philbin，Li Fei-Fei）
House3D - House3D是一个虚拟3D环境，由数千个室内场景组成，这些场景配备了多种场景类型，布局和源自SUNCG数据集的对象。它包括超过45,000个室内3D场景，从工作室到带游泳池和健身室的两层房屋。所有3D对象都使用类别标签进行完全注释。环境中的代理可以访问多种模态的观察，包括RGB图像，深度，分割掩模和自上而下的2D地图视图。渲染器以每秒数千帧的速度运行，使其适用于大规模RL训练。（Yi Wu，Yuxin Wu，Georgia Gkioxari，Yuandong Tian，facebook research）
IMPART多视图/多模式2D + 3D电影制作数据集 - 激光雷达，视频，3D模型，球形摄像机，RGBD，立体声，动作，面部表情等（萨里大学）
工业3D物体检测数据集（MVTec ITODD） - 用于3D物体检测和姿态估计的3500个标记场景中的28个物体的深度和灰度值数据，重点关注工业设置和应用（MVTec Software GmbH，Munich）
Kinect v2数据集 - 使用核密度估计的高效多频相位展开（Felix等）
KOMATSUNA数据集 - 数据集用于使用连续多视图RGB图像和深度图像进行叶子的实例分割，跟踪和重建。（九州大学Hideaki Uchiyama）
Make3D激光+图像数据 - 大约1000个RGB室外图像，具有对齐的激光深度图像（Saxena，Chung，Ng，Sun）
McGill-Reparti人工感知数据库 - 来自四个摄像头的RGBD数据和两个人类受试者在车门上执行模拟装配任务的未过滤Vicon骨骼数据（Andrew Phan，Olivier St-Martin Cormier，Denis Ouellet，Frank P. Ferrie）。
元房间 - RGB-D数据由28个对齐的深度相机图像组成，通过让机器人到达特定的地方并使用各种倾斜进行360度平移来收集。（John Folkesson等人）
METU多模立体声数据集 - 多模立体视觉的基准数据集??? - METU多模态立体声数据集包括用于多模态立体视觉的基准数据集，该数据集由两个数据集组成：（1）来自Middlebury立体评估数据集的综合改变的立体图像对和（2）可见红外图像从Kinect设备捕获的对。（Mustafa Yaman博士，Sinan Kalkan博士）
MHT RGB-D - 由林肯大学每隔5分钟由机器人收集16天。（John Folkesson等人）
在RGB-D中移动INFants（MINI-RGBD） - 用于婴儿姿势估计的合成的，逼真的RGB-D数据集，其包含具有地面真实关节位置的12个移动婴儿序列。（N. Hesse，C。Bodensteiner，M。Arens，UG Hofmann，R。Weinberger，AS Schroeder）
用于物体识别的多传感器3D物体数据集，具有全姿态估计 - 用于物体识别和姿态估计的多传感器3D物体数据集（Alberto Garcia-Garcia，Sergio Orts-Escolano，Sergiu Oprea等）
NTU RGB + D动作识别数据集 - NTU RGB + D是用于人类动作识别的大规模数据集（Amir Shahroudy）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）
NYU Depth Dataset V2 - RGBD图像的室内分割和支持推断
奥克兰三维点云数据集（Nicolas Vandapel）
Pacman项目 - 来自20个类的400个对象的合成RGB-D图像。从3D网格模型生成（Vladislav Kramarev，Umit Rusen Aktas，Jeremy L. Wyatt。）
程序性人类行动视频 - 该数据集包含大约40,000个用于人类动作识别的视频，这些视频是使用3D游戏引擎生成的。该数据集包含大约600万帧，其可用于训练和评估模型，不仅是动作识别，而且还用于深度图估计，光流，实例分割，语义分割，3D和2D姿势估计以及属性学习的模型。（Cesar Roberto de Souza）
基于RGB-D的动作识别数据集 - 包含不同rgb-d动作识别数据集的列表和链接的论文。（张静，李万庆，Philip O. Ogunbona，王必皓，唐昌）
RGB-D Part Affordance数据集 - 用于105个厨房，工作室和园艺工具的RGB-D图像和地面真实可供选择标签，以及3个杂乱的场景（Myers，Teo，Fermuller，Aloimonos）
ScanNet：室内场景的富有注释的3D重建 --ScanNet是一个包含丰富注释的RGB-D扫描的数据集，包含超过1500次扫描的2.5M RGB-D图像，带有3D相机姿势，表面重建，和实例级语义分段。（Angela Dai，Angel X. Chang，Manolis Savva，Maciej Halber，Thomas Funkhouser，Matthias Niessner）
SceneNN：场景使用aNNotations网格化数据集 - 具有100多个室内场景的RGB-D场景数据集，标记为三角形网格，体素和像素。（Hua，Pham，Nguyen，Tran，Yu和Yeung）
Semantic-8：具有8个类的3D点云分类（苏黎世联邦理工学院）
小型办公室数据集 - 从2014年4月开始每5秒钟进行一次Kinect深度图像处理。（John Folkesson等人）
具有基础事实的立体声和ToF数据集 - 数据集包含使用飞行时间传感器和立体声设置采集的5个不同场景。还提供了地面实况信息。（Carlo Dal Mutto，Pietro Zanuttigh，Guido M. Cortelazzo）
SYNTHIA - 用于训练自动驾驶汽车的大型（约50万）虚拟世界图像。（计算机视觉中心的ADAS集团）
任务 - 超过450万个真实图像，每个图像具有25个语义，2D和3D任务的基础事实。（Zamir，Sax，Shen，Guibas，Malik，Savarese）
顶空数据集 - 顶空数据集是一组完整人体头部的3D图像，由1519名穿着紧身乳胶帽的受试者组成，以减少发型的影响。（Christian Duncan，Rachel Armstrong，Alder Hey Craniofacial Unit，英国利物浦）
约克3D耳朵数据集 - 约克3D耳朵数据集是一组500个3D耳朵图像，由详细的2D标记合成，并以Matlab格式（.mat）和PLY格式（.ply）提供。（Nick Pears，Hang Dai，Will Smith，约克大学）
THU-READ（清华大学RGB-D自我中心行动数据集） - THU-READ是一个用于RGBD视频中动作识别的大型数据集，带有像素杠杆手部注释。（Yansong Tang，Yi Tian，Lu Jiwen Lu，Jianjiang Feng，Jie Zhou）
TUM RGB-D基准测试 - 用于评估RGB-D视觉测距和SLAM算法的数据集和基准（Jorgen Sturm，Nikolas Engelhard，Felix Endres，Wolfram Burgard和Daniel Cremers）
UC-3D运动数据库 - 可用的数据类型包括高分辨率运动捕捉，采用Xsens和Microsoft Kinect RGB和深度图像的MVN Suit获得。（葡萄牙科英布拉系统与机器人研究所）
Uni Bremen Open，腹部手术RGB数据集 - 使用直接安装在患者上方的Kinect v2记录完整，开放式腹部手术，俯视患者和工作人员。（Joern Teuber，Gabriel Zachmann，不来梅大学）
USF范围图像数据库 - 400+激光测距仪和结构光照相机图像，其中许多具有地面真实分割（Adam等人）
华盛顿RGB-D对象数据集 - 300个常见的家庭用品和14个场景。（华盛顿大学和英特尔实验室西雅图）
Witham Wharf - 林肯大学每隔10分钟由机器人收集八个地点的RGB-D。（John Folkesson等人）
一般视频
AlignMNIST - MNIST手写数据集的人工扩展版本。（en Hauberg）
视听事件（AVE）数据集 - AVE数据集包含4143个YouTube视频，涵盖28个事件类别和AVE数据集中的视频，在时间上标有视听事件边界。（田亚鹏，景石，李伯辰，段志尧，徐晨亮）
多模态语义自我中心视频（DoMSEV）的数据集 - 标记80小时的多模式语义自我中心视频（DoMSEV）数据集，涵盖广泛的活动，场景，记录器，照明和天气条件。（UFMG，Michel Silva，华盛顿Ramos，Jo ?? o Ferreira，Felipe Chamone，Mario Campos，Erickson R. Nascimento）
DAVIS：2016年视频对象分割数据集 - 视频对象分割的基准数据集和评估方法（F. Perazzi，J。Pont-Tuset，B。McWilliams，L。Van Gool，M。Gross和A. Sorkine-Hornung）
DAVIS：视频对象分割数据集2017 - 2017年DAVIS视频对象分割挑战（J. Pont-Tuset，F。Perazzi，S。Caelles，P。Arbelaez，A。Sorkine-Hornung和L. Van Gool）
GoPro-Gyro数据集 - 自我中心视频（林雪平计算机视觉实验室）
LIVE的图像和视频质量评估 - 用于开发图像质量算法（德克萨斯大学奥斯汀分校）
大型YouTube视频数据集 - 从YouTube视频中抓取的156,823个视频（2,907,447个关键帧）（Yi Yang）
电影可记忆性数据集 - 令人难忘的电影剪辑和详细记忆的基本事实，从100部好莱坞式电影（Cohendet，Yadati，Duong和Demarty）中提取的660部短片摘录
MovieQA - 每台机器通过回答有关它们的问题来理解故事。15000多选QAs，400多部电影。（M。Tapaswi，Y。Zhu，R。Stiefelhagen，A。Torralba，R。Urtasun和S. Fidler）
多光谱可见近红外视频序列 - 带注释的多光谱视频，可见+近红外（LE2I，Universit de Bourgogne）
时间数据集中的时刻 - 时间数据集中的时刻1M使用操作类型注释的3秒视频，这是用于在视频中识别和理解动作的最大数据集。（蒙福特，奥利瓦等人）
近似重复的视频检索数据集 - 该数据库包含156,823个视频序列（2,907,447个关键帧），这些视频序列在2010年7月至2010年9月期间从YouTube中抓取。（Jingkuan Song，Yi Yang，Zi Huang，Heng Tao Shen，Richang Hong）
PHD2：个性化突出显示检测数据集 - PHD2是具有个性化突出显示信息的数据集，其允许在进行预测时训练使用关于用户的信息的突出显示检测模型。（Ana Garcia del Molino，Michael Gygli）
Sports-1M - 用于体育视频分类的数据集，包含487个课程和1.2M视频。（Andrej Karpathy和George Toderici以及Sanketh Shetty和Thomas Leung以及Rahul Sukthankar和Li Fei-Fei。）
nuTonomy场景数据集（nuScenes） - nuScenes数据集是一个大规模的自动驾驶数据集。它具有：全传感器套件（1x LIDAR，5x雷达，6x摄像头，IMU，GPS），1000个场景，每个20s，1,440,000个摄像头图像，400,000个激光雷达扫描，两个不同的城市：波士顿和新加坡，左侧与右侧交通，详细地图信息，25个对象类的手动注释，以2Hz注释的1.1M 3D边界框，可见性，活动和姿势等属性。（凯撒等人）
用于研究欧几里得升级的视频序列基于对相机的最小假设（Kenton McHenry）
视频堆叠数据集 - 用于智能手机上手持视频堆叠的虚拟三脚架（Erik Ringaby等）
YFCC100M视频 - YFCC100M视频子集的基准测试，包括视频，视频内容功能和最先进的视频内容引擎的API。（陆江）
YFCC100M：多媒体研究的新数据 - 这个公开提供的1亿张照片和视频的策划数据集对所有人来说都是免费且合法的。（Bart Thomee，雅虎实验室和旧金山的Flickr等）
YouTube-BoundingBoxes - 来自23个对象类的560个精确的人工注释BB，来自24万个YouTube视频，重点关注人类（130万盒）（Real，Shlens，Pan，Mazzocchi，Vanhoucke，Khan，卡卡拉等人）
YouTube-8M - 用于野外视频分类的数据集，包含8M视频和4800个类别的预先提取的帧级功能。（Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，Paul Natsev，George Toderici，Balakrishnan Varadarajan， Sudheendra Vijayanarasimhan）
YUP ++ /动态场景数据集 - 来自60个不同场景的20个室外场景类，每个都有60个彩色视频（每个5秒，480个像素宽，24-30个fps）。一半视频使用静态相机，一半使用移动相机（Feichtenhofer，Pinz，Wildes）
手，手抓，手动和手势数据库
11k手 --1,1,076手图像（1600 x 1200像素）的190个主题，年龄介于18 - 75之间，具有元数据（身份，性别，年龄，肤色，手性，手，配件等）。（Mahmoud Afifi）
200亿-Jester - 密集标记的视频剪辑，显示人类在笔记本电脑摄像头或网络摄像头前执行预定义的手势（Twenty Billion Neurons GmbH）
单深度图像三维关节手部姿态估计（Tang，Chang，Tejani，Kim，Yu）
人体操纵动作数据集 - 25个物体和6个动作的RGB-D（Alessandro Pieropan）
手势检测数据集（Javier Molina等）
A-STAR注释手深图像数据集及其性能评估 - 深度数据和数据手套数据，30个志愿者的29幅图像，中文数字计数和美国手语（徐和程）
博斯普鲁斯海峡手部几何数据库和手部静脉数据库（博阿齐奇大学）
DemCare数据集 - DemCare数据集由来自不同传感器的一组不同数据集合组成，可用于从可穿戴/深度和静态IP摄像机识别人类活动，用于Alzheimmer疾病检测的语音识别以及用于步态分析和异常检测的生理数据。（K. Avgerinakis，A.Karakostas，S.Vrochidis，I。Kompatsiaris）
EgoGesture数据集 - 第一人称视图手势，包含83个课程，50个科目，6个场景，24161个RGB-D视频样本（Zhang，Cao，Cheng，Lu）
EgoHands - 一个拥有超过15,000个像素级分段指针的大型数据集，记录自人们以自我为中心的相机相互作用。（Sven Bambach）
EgoYouTubeHands数据集 - 以自我为中心的手部分割数据集由来自YouTube视频的1290个带注释的帧组成，这些帧是在无约束的真实世界设置中记录的。视频的环境，参与者数量和行动都有所不同。此数据集可用于研究无约束设置中的手部分割问题。（Aisha Urooj，A。Borji）
FORTH手部跟踪库（FORTH）
一般手：一般手部检测和姿势挑战 - 22个具有不同手势，活动和观点的序列（加州大学欧文分校）
掌握UNderstanding（GUN-71）数据集 - 使用71种细粒度抓取分类标注的12,000个对象操纵场景的第一人称RGB-D图像。（Rogez，Supancic和Ramanan）
手势和海洋剪影（Euripides GM Petrakis）
HandNet：由手部姿势的RealSense RGBD传感器捕获的手的铰接指针 214971的注释深度图像的注释深度图像。注释：每个像素类，6D指尖姿势，热图。火车：202198，测试：10000，验证：2773。记录在Technion的GIP Lab。
HandOverFace数据集 - 手部分割数据集由来自网络的300个带注释的框架组成，用于研究手部遮挡面问题。（Aisha Urooj，A。Borji）
IDIAP手姿势/手势数据集（Sebastien Marcel）
Kinect和Leap运动手势识别数据集 - 数据集包含使用Leap Motion和Kinect设备获取的1400种不同手势（Giulio Marin，Fabio Dominio，Pietro Zanuttigh）
Kinect和Leap运动手势识别数据集 - 数据集包含使用Creative Senz3D相机采集的几种不同的静态手势。（A.Moono，L。Minto，P。Zanuttigh）
LISA CVRR-HANDS 3D - 由8名受试者作为汽车司机和乘客进行的19次手势（Ohn-Bar和Trivedi）
用于评估3D关节手部运动跟踪的MPI Dexter 1数据集 - Dexter 1：7个具有挑战性，慢速和快速手部运动的序列，RGB +深度（Sridhar，Oulasvirta，Theobalt）
MSR实时和强大的手部深度跟踪 - （Qian，Sun，Wei，Tang，Sun）
移动和网络摄像头手部图像数据库 - MOHI和WEHI - 200人，每个30张图像（Ahmad Hassanat）
NTU-Microsoft Kinect HandGesture数据集 - 这是手势的RGB-D数据集，10个主题x 10个手势x 10个变体。（周仁，袁俊松，孟晶晶，张正友）
NUIG_Palm1 - 使用消费者设备进行掌纹识别实验，在无约束条件下获取的掌纹图像数据库。（Adrian-Stefan Ungureanu）
NYU Hand Pose Dataset - 8252测试集和72757个训练集帧捕获的RGBD数据，具有真实的手势，3个视图（Tompson，Stein，Lecun，Perlin）
PRAXIS手势数据集 - 来自29个手势的RGB-D上身数据，64名志愿者，多次重复，许多志愿者有一些认知障碍（Farhood Negin，INRIA）
渲染手柄数据集 - 用于2D / 3D手势估计的合成数据集，具有RGB，深度，分割掩模和每手21个关键点（Christian Zimmermann和Thomas Brox）
Sahand动态手势数据库 - 该数据库包含11个动态手势，旨在向计算机传达鼠标和触摸屏的功能。（Behnam Maleki，Hossein Ebrahimnezhad）
谢菲尔德手势数据库 - 2160 RGBD手势序列，6个科目，10个手势，3个姿势，3个背景，2个照明（凌少）
UT Grasp数据集 - 4个主题掌握各种各样的掌握（Cai，Kitani，Sato）
耶鲁人类掌握数据集 - 27个小时的视频，带有来自两个管家和两个机械师（Bullock，Feix，Dollar）的标记抓取，对象和任务数据
图像，视频和形状数据库检索
2D到3D可变形草图 - 可变形2D轮廓的集合，与同一类的可变形3D网格在点对应中; 提供了大约10个对象类，包括人类和动物。（拉纳，罗多拉）
杂波中的3D可变形对象 - 用于3D可变形物体杂波的数据集，具有跨越数百个场景并跨越多个类别（人类，动物）的逐点地面真实对应。（Cosmo，Rodola，Masci，Torsello，Bronstein）
ANN_SIFT1M - 由128D SIFT描述符编码的1M Flickr图像（Jegou等）
布朗大学25/99/216形状数据库（Ben Kimia）
CIFAR-10 - 来自10个类的60K 32x32图像，带有512D GIST描述符（Alex Krizhevsky）
CLEF-IP 2011专利图像评估
DeepFashion - 大型时装数据库（刘紫薇，罗平，石秋，王小刚，王小鸥）
EMODB - picsearch图像搜索引擎中图像的缩略图以及picsearch情感关键字（Reiner Lenz等）
ETU10 Silhouette数据集 - 数据集包含720个10个对象的轮廓，每个对象有72个视图。（M.Akimaliev和MF Demirci）
2013年欧洲洪水 - 中欧洪水事件的3,710张图片，注释了3个图像检索任务（多标签）和重要图像区域的相关性。（Friedrich Schiller University Jena，Deutsches GeoForschungsZentrum Potsdam）
Fashion-MNIST - 类似MNIST的时尚产品数据库。（韩晓，Zalando Research）
鱼形数据库 - 它是一个鱼形数据库，具有100个2D点集形状。（阿德里安·彼得）
Flickr 30K - 图像，动作和字幕（Peter Young等）
Flickr15k - 基于草图的图像检索（SBIR）基准 - 包含33个对象类别的330个草图和15,024张照片的数据集，常用于评估基于草图的图像检索（SBIR）算法的基准数据集。（Hu和Collomosse，CVIU 2013）
动手动作（HIC）IJCV数据集 - 使用/ o 1对象跟踪1手或2手的数据（图像，模型，动作）。包括*单视图RGB-D序列（1个主题，> 18个带注释的序列，4个对象，完整的RGB图像）和*多视图RGB序列（1个主题，HD，8个视图，8个序列 - 1个带注释，2个对象）。（Dimitrios Tzionas，Luca Ballan，Abhilash Srikantha，Pablo Aponte，Marc Pollefeys，Juergen Gall）
IAPR TC-12图像基准（Michael Grubinger）
IAPR-TC12分段和注释图像基准（SAIAPR TC-12）:( Hugo Jair Escalante）
ImageCLEF 2010概念检测和注释任务（Stefanie Nowak）
ImageCLEF 2011概念检测和注释任务 - Flickr照片中的多标签分类挑战
INRIA Copydays数据集 - 用于评估复制检测：JPEG，裁剪和“强”复制攻击。（INRIA）
INRIA Holidays数据集 - 用于评估图像搜索：500个查询和991个相应的相关图像（Jegou，Douze和Schmid）
MA14KD（电影吸引力14K数据集）数据集 - 14K电影/电视预告片，每部10个特征，链接到评级数据集（Elahi，Moghaddam，Hosseini，Trattner，Tkalčič）
METU商标数据集 METU数据集由属于全球公司的900多个真实徽标组成。（Usta Bilgi Sistemleri AS和Grup Ofis Marka专利AS）
McGill 3D Shape Benchmark（Siddiqi，Zhang，Macrini，Shokoufandeh，Bouix，Dickinson）
MPI MANO和SMPL + H数据集 - 统计模型MANO（仅手动）和SMPL + H（身体+指针）的模型，4D扫描和注册。对于MANO，有31个受试者进行~2k静态3D扫描，最多可进行51次姿势。对于SMPL + H，我们包括39个4个11D序列的序列。（Javier Romero，Dimitrios Tzionas和Michael J Black）
多视图立体评估 - 每个数据集都注册了一个通过激光扫描过程获得的“地面实况”3D模型（Steve Seitz等人）
NIST SHREC - 2014年NIST检索竞赛数据库和链接（美国国家标准与技术研究院）
NIST SHREC - 2013年NIST检索竞赛数据库和链接（美国国家标准与技术研究院）
NIST SHREC 2010 - 非刚性3D模型的形状检索竞赛（美国国家标准与技术研究院）
NIST TREC视频检索评估数据库（美国国家标准与技术研究院）
NUS-WIDE - 带有81个概念标签的269K Flickr图像，包含为500D BoVW描述符（Chau等）
普林斯顿形状基准（普林斯顿形状检索和分析组）
PairedFrames - 评估3D姿势跟踪误差 - 合成和真实数据集，用于测试3D姿态跟踪/细化，姿势初始化接近/远离/来自最小值。建立难度越来越大的测试帧对，分别测量姿态估计误差，而不采用完整的跟踪流水线。（Dimitrios Tzionas，Juergen Gall）
昆士兰跨媒体数据集 - 用于“跨媒体”检索的数百万图像和文本文档（Yi Yang）
从RGB-D视频重建铰接式装配模型（RecArt-D） - 在操纵过程中变形的物体的数据集。包括4个RGB-D序列（RGB图像完整），每个对象的可变形跟踪结果，以及每个对象的3D网格和Ground-Truth 3D骨架。（Dimitrios Tzionas，Juergen Gall）
从手对象交互重建（R-HOI） - 一只手与未知对象交互的数据集。包括4个RGB-D序列，总共4个对象，RGB图像完整。包括对象的跟踪3D运动和Ground-Truth网格。（Dimitrios Tzionas，Juergen Gall）
重访牛津和巴黎（RevisitOP） - 着名的地标/建筑物检索数据集的改进且更具挑战性的版本（固定错误，新注释和评估协议，新查询图像）以及1M牵引器图像。（F. Radenovic，A。Iscen，G。Tolias，Y。Avrithis，O。Chum）
SHREC'16可变形部分形状匹配 - 大约400个3D可变形形状的集合，经历强烈的偏态变换，包括点对点地面真实对应。（Cosmo，Rodola，Bronstein，Torsello）
SHREC 2016 - 基于3D草图的3D形状检索 - 使用手绘3D草图查询数据集在通用3D模型数据集上评估不同基于3D草图的3D模型检索算法的性能的数据（Bo Li）
SHREC'17可变形部分形状检索 - 大约4000个可变形3D形状的集合，经历严重的偏态变换，形式为不规则缺失部分和距离数据; 提供了真实课程信息。（拉纳，罗多拉）
SHREC防水模型轨道（SHREC 2007） - 400个防水3D模型（Daniela Giorgi）
SHREC部分模型轨道（SHREC 2007） - 400个防水3D DB模型和30个减少的防水查询模型（Daniela Giorgi）
SBU Captions Dataset - 从Flickr（Ordonez，Kulkarni和Berg）收集的100万张图像的图像标题
草绘我的鞋子 - 在细粒度的设置中基于草图的对象检索。将草图与特定的鞋子和椅子相匹配。（Qian Yu，QMUL，T。Hospedales Edinburgh / QMUL）。
TOSCA 3D形状数据库（Bronstein，Bronstein，Kimmel）
完全看起来 - 评估预测基于人类的图像相似性的基准（Amir Rosenfeld，Markus D. Solbach，John Tsotsos）
UCF-CrossView数据集：用于城市环境中地理定位的跨视图图像匹配 - 用于跨视图图像地理定位的街景和鸟瞰图像的新数据集。（中佛罗里达大学计算机视觉研究中心）
YouTube-8M数据集 - 用于视频理解研究的大型多样化标签视频数据集。（谷歌公司）