常用各类数据集

最新推荐文章于 2025-03-26 16:43:05 发布

或许，这就是梦想吧！

最新推荐文章于 2025-03-26 16:43:05 发布

阅读量4.4w

点赞数 31

原文链接：http://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htm

CVonline：图像数据库

(Google直译的结果，希望对大家有帮助)

按主题索引

另一个有用的网站是YACVID页面。

行动数据库

3D在线动作数据集 - 有七个动作类（微软和南洋理工大学）
50沙拉 - RGB-D视频+加速度计数据的完整注释4.5小时数据，捕获25人准备两个混合沙拉（邓迪大学，塞巴斯蒂安·斯坦因）
ActivityNet - 人类活动理解的大规模视频基准（200个课堂，每班100个视频，648个视频小时）（Heilbron，Escorcia，Ghanem和Niebles）
ASLAN行动相似性标签挑战数据库（Orit Kliper-Gross）
视频中的动作检测 - MERL购物数据集由106个视频组成，每个视频都是大约2分钟的序列（Michael Jones，Tim Marks）
演员和动作数据集 –3782视频，七个演员执行八个不同的动作（徐，谢，熊，科索）
针对动作识别的各种标签视频数据集的分析整理（Kevin Murphy）
BEHAVE交互人视频数据与标记（Scott Blunsden，Bob Fisher，Aroosha Laghaee）
BU动作数据集 - 与视频数据集UCF101和ActivityNet的类别具有1：1对应关系的三个图像动作数据集（BU101，BU101-未过滤，BU203未过滤）。（S.Ma，SABargal，J.Zhang，L.Sigal，S.Sclaroff。）
伯克利MHAD：综合多式联运行动数据库（Ferda Ofli）
伯克利多式联运行动数据库 - 扩大应用领域的五种不同方式（加利福尼亚大学伯克利分校和约翰霍普金斯大学）
早餐数据集 - 这是一个数据集，有1712个视频剪辑，显示10个厨房活动，手动分为48个原子动作类。（H.Kuehne，AB Arslan和T. Serre）
布里斯托尔中心对象交互数据集 - 包含从六位不同位置执行任务的3-5位用户（第一人称（自我中心））拍摄的视频（Dima Damen，Teesid Leelaswassuk和Walterio Mayol-Cuevas，Bristol University）
棕色早餐动作数据集 - 70小时，400万帧10种不同的早餐准备活动（Kuehne，Arslan和Serre）
CAD-120数据集 - 专注于高水平的活动和对象互动（康奈尔大学）
CAD-60数据集 - CAD-60和CAD-120数据集包括人类执行活动的RGB-D视频序列（康奈尔大学）
CVBASE06：注释体育视频（Janez Pers）
Charades 数据集 - 来自267名志愿者的10,000个视频，每个注释有多个活动，标题，对象和时间本地化。（Sigurdsson，Varol，Wang，Laptev，Farhadi，Gupta）
组合活动数据集 - 提供了由14个科目和注释执行的26个原子行为的16种活动类别的不同组合（智利大学和智利大学）
康乃尔活动数据集CAD 60，CAD 120（康奈尔机器人学习实验室）
DMLSmartActions数据集 - 十六名科目以自然方式进行了12种不同的行动（不列颠哥伦比亚大学）
深度包含的人类行动视频数据集 - 它包含23个不同的动作（中国科学院CITI）
DogCentric活动数据集 - 从安装在*狗*上方的相机拍摄的第一人称视频（Michael Ryoo）
ETS曲棍球比赛事件数据集 - 此数据集包含使用固定摄像机捕获的两个曲棍球游戏的素材。（M.-A.Carneau，AJRaymond，E.Granger，和G.Gagnon）
FCVID：复旦 - 哥伦比亚视频数据集 - 91,223根据239类手动注释的网络视频（Jiang，Wu，Wang，Xue，Chang）
G3D - 使用Microsoft Kinect（Victoria Bloom）捕获的20场游戏动作的同步视频，深度和骨架数据
G3Di - 此数据集包含12对科目分为6对（金斯顿大学）
游戏3D数据集 - 游戏场景中的实时动作识别（金士顿大学）
佐治亚州技术中心活动 - 凝视（+） - 人们观看的视频和他们的目光位置（Fathi，Li，Rehg）
HMDB：大型人体运动数据库（Serre Lab）
好莱坞3D数据集 - 650个3D视频剪辑，跨越14个动作类（Hadfield和Bowden）
人类行为和场景数据集（Marcin Marszalek，Ivan Laptev，Cordelia Schmid）
HumanEva：用于评估人体运动的同步视频和运动捕获数据集（布朗大学）
I-LIDS视频事件图像数据集（智能检测系统的图像库）（Paul Hosner）
I3DPost多视图人体动作数据集（Hansung Kim）
IAS实验室行动数据集 - 包含充分的行动和执行行动的人数（帕多瓦大学的IAS实验室）
INRIA Xmas运动采集序列（IXMAS）（INRIA）
InfAR数据集 - 不同时期的红外线动作识别神经计算（陈强强，银河杜江江，Jing Lv，Luyu Yang，Deyu Meng，Alexander G. Hauptmann）
JPL第一人称交互数据集 - 从第一人称角度拍摄的7种人类活动视频（Michael S. Ryoo，JPL）
耶拿动作识别数据集 - 爱博犬行动（Korner和Denzler）
K3Da - Kinect 3D活动数据集 - K3Da（Kinect 3D活动）是一个现实的临床相关的人类行动数据集，包含骨骼，深度数据和相关的参与者信息（D.Lightley，MH Yap，J.Corulson，Y.Banouin和JSMcPhee）
KIT Robo-Kitchen活动数据集 - 共有17人组成的540个剪辑，进行12个复杂的厨房活动（L。Rybok，S. Friedberger，UD Hanebeck，R. Stiefelhagen）
KTH人类动作识别数据库（KTH CVAP实验室）
卡尔斯鲁厄动作，意图和活动数据集（MINTA） - 7种日常生活活动，包括全部运动原始部分（D。Gehrig，P.Krauthausen，L.Rybok，H.Kuehne，UDHanebeck，T.Schultz， Stiefelhagen）
LIRIS人类活动数据集 - 包含（灰色/ rgb /深度）视频，显示执行各种活动的人（法国国家科学研究中心）
LIRIS人类活动数据集 - 2个相机，注释，深度图像（Christian Wolf，et al）
MEXaction2行动检测和本地化数据集 - 支持在相对较大的视频数据库中“发现”短时间动作的方法的开发和评估：77小时，117视频（Michel Crucianu和Jenny Benois-Pineau）
MPII烹饪活动数据集（M. Rohrbach）
MSR-Action3D - 基准RGB-D动作数据集（Microsoft Research Redmond和卧龙岗大学）
MSRActionPair数据集 - ：深度序列活动识别的面向4D法线的直方图（佛罗里达州中部和微软大学）
MSRC-12 Kinect手势数据集 - 来自执行12个手势的人的594个序列和719,359个帧（Microsoft Research Cambridge）
MSRC-12数据集 - 代表身体部位的人类运动序列，以及相关的手势（Microsoft Research Cambridge and Cambridge of Cambridge）
MSRDailyActivity3D数据集 - 有16项活动（微软和西北大学）
ManiAc RGB-D动作数据集：不同的操作动作，15个不同的版本，30个不同的对象被操纵，20个长和复杂的链接操作序列（Eren Aksoy）
Mivia数据集 - 由14个科目执行的7个高级动作组成。（Salemo大学的Mivia Lab）
MuHAVi - Multicamera人类行动视频数据（Hossein Ragheb）
多模式动作检测（MAD）数据集 - 它包含20个主题执行的35个连续动作。（卡内基梅隆大学）
Multiview 3D事件数据集 - 此数据集包括由8名科目（加利福尼亚大学洛杉矶分校）执行的8类事件，
NTU RGB + D动作识别数据集 - NTU RGB + D是人类行动识别的大规模数据集（Amir Shahroudy）
西北UCLA Multiview Action 3D - 有10个动作类别：（西北大学和加利福尼亚大学洛杉矶分校）
基于牛津电视的人际交往（Oxford Visual Geometry Group）
议会 - 议会数据集是228个视频序列的集合，描述了希腊议会的政治演讲（Michalis Vrigkas，Christophoros Nikou，Ioannins A. kakadiaris）
RGB-D活动数据集 - 数据集中的每个视频包含涉及与不同对象交互的2-7个动作。（康奈尔大学和斯坦福大学）
RGBD-Action-Completion-2016 - 此数据集包含414个完整/不完整的对象交互序列，跨越六个动作并呈现RGB，深度和骨架数据。（Farnoosh Heidarivincheh，Majid Mirmehdi，Dima Damen）
RGBD-SAR数据集 - RGBD-SAR数据集（中国和微软电子科技大学）
罗切斯特日常活动数据集活动（Ross Messing）
SBU Kinect交互数据集 - 它包含八种类型的交互（石溪大学）
SBU-Kinect-Interaction数据集v2.0 - 它由人类执行互动活动（Kiwon Yun等）的RGB-D视频序列组成
SDHA人类活动的语义描述2010年比赛 - 人类互动（Michael S. Ryoo，JK Aggarwal，Amit K. Roy-Chowdhury）
SDHA人类活动语义描述2010年比赛 - 空中观点（Michael S. Ryoo，JK Aggarwal，Amit K. Roy-Chowdhury）
SFU排球组活动识别 - 排球视频的 2个级别注释数据集（9个玩家的动作和8个场景的活动）（M。Ibrahim，S. Muralidharan，Z.Deng，A.Vahdat和G. Mori / Simon Fraser University）
SYSU 3D人对象交互数据集 - 四十个科目进行12个不同的活动（中山大学）
ShakeFive数据集 - 只包含两个动作，即手摇和高5。（乌特勒支大学）
ShakeFive2 - 在153个高清视频中的八个类别上具有肢体等级注释的二元人机交互数据集（Coert van Gemeren，Ronald Poppe，Remco Veltkamp）
野蛮体育视频（SVW） - SVW由Coach Eye智能手机应用程序用户完全由智能手机拍摄的4200个视频，由TechSmith公司开发的运动训练领先应用程序（Seyed Morteza Safdarnejad，Xiaoming Liu）
斯坦福体育赛事数据集（佳丽）
利兹活动数据集 - 早餐（LAD - 早餐） - 由15个注释的视频组成，代表五个不同的人吃早餐或其他简单的餐点; （John Folkesson等人）
THUMOS - 在时尚未剪辑的视频中的行动识别！ - 430小时的视频数据和4500万帧（Gorban，Idrees，Jiang，Zamir，Laptev Shah，Sukthanka）
TUM厨房数据集日常操作活动（Moritz Tenorth，Jan Bandouch）
电视人类交互数据集（Alonso Patron-Perez）
堕落检测数据集 - 两个风景中的六个科目连续进行了一系列行动（德克萨斯大学）
TJU数据集 - 包含由两个不同环境中的20个科目执行的22个动作; 共有1760个序列。（天津大学）
UCF-iPhone数据集 - 9在Apple iPhone 4智能手机上使用惯性测量单元（IMU）从（6-9）科目记录有氧运动。（Corey McCall，Kishore Reddy和Mubarak Shah）
UPCV动作数据集 - 数据集由20个对象执行10次动作两次。（帕特雷大学）
UC-3D运动数据库 - 可用的数据类型包括采用Xsens和Microsoft Kinect RGB和深度图像的MVN Suit采集的高分辨率运动捕捉（葡萄牙科英布拉系统与机器人研究所）
UCF 101动作数据集 101个动作类，超过13k个剪辑和27小时的视频数据（佛罗里达州中部大学）
UCFKinect - 数据集由16个动作组成（中佛罗里达州奥兰多大学）
UCR Videoweb多摄像机广域活动数据集（Amit K. Roy-Chowdhury）
UTD-MHAD - 八个科目进行了四次动作四次。（得克萨斯大学达拉斯分校）
UTKinect数据集 - 由10名受试者（德克萨斯大学）进行了两次人类行为，
UWA3D多视角活动数据集 - 10个人（西澳大利亚大学）进行了30 次活动，
中央佛罗里达大学 - 50实际视频中的行动类别识别（3 GB）（Kishore Reddy）
中央佛罗里达大学 - ARG天文摄像机，屋顶摄像机和地面摄像机（UCF计算机视觉实验室）
佛罗里达州中部大学 - 特色影片动作数据集（佛罗里达州中部大学）
佛罗里达州中部大学 - 体育行动数据集（佛罗里达州中部大学）
佛罗里达州中部大学 - YouTube行动数据集（体育）（佛罗里达州中部大学）
乌特勒支多人运动基准（UMPM）。 - 基于运动捕捉数据的人物视频录像和地面实况的集合（NP van der Aa，X.Ro，GJ Giezeman，RT Tan，RC Veltkamp。）
VIRAT视频数据集 - 涉及人类和车辆的两大类活动（单个对象和两个对象）的事件识别。（Sangmin Oh等）
维罗纳社交互动数据集（Marco Cristani）
ViHASi：虚拟人类动作剪影数据（userID：VIHASI密码：虚拟$虚拟）（金斯顿大学Hossein Ragheb）
Videoweb（multicamera）活动数据集（B.Bhanu，G.Dinina，C.Ding，A.Ivers，A.Kalal，C.Ravishankar，A.Roy-Chowdhury，B.Varda）
WVU多视图动作识别数据集（西维吉尼亚大学）
锻炼SUU-10 Kinect数据集练习动作（Ceyhun Akgul）
WorkoutSU-10数据集 - 包含由专业培训师选择用于治疗目的的锻炼动作。（Sabanc大学）
手腕摄像机视频数据集 - 对象操纵（Ohnishi，Kanehira，Kanezaki，原田）
YouCook - 88个带有注释的开源YouTube烹饪视频（Jason Corso）
YouTube-8M数据集 - 视频理解研究（Google Inc.）的大型多样化标签视频数据集

属性识别

鸟类这个数据库包含六个不同类别鸟类的600张图像（每个100个样本）（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）
蝴蝶这个数据库包含619个不同类别的蝴蝶的图像。（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）
CALVIN研究组数据集 - 眼睛跟踪对象检测，imagenet边界框，同步活动，stickman和身体姿势，youtube对象，脸，马，玩具，视觉属性，形状类（CALVIN ggroup）
CelebA - 大型CelebFaces属性数据集（Ziwei Liu，Ping Luo，Xiaogang Wang，Xiaoou Tang）
HAT数据库的27个人类属性（Gaurav Sharma，Frederic Jurie）
LFW-10数据集，用于学习相对属性 - 具有10个属性的实例级注释的10,000对面部图像的数据集（CVIT，IIIT Hyderabad。）
个人照片集中的人物识别 - 我们为评估和长时间属性注释和每张照片时间戳元数据引入了三个更难的划分（噢，Seong Joon和Benenson，Rodrigo和Fritz，Mario和Schiele，Bernt）
可视属性数据集超过500个对象类（动画和无生命）的视觉属性注释，都在ImageNet中表示。每个对象类都基于具有636个属性的分类法（例如，具有金属制成的毛皮，圆形）的视觉属性来注释。
WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，其中13789个图像属于30个场景类别，每个57524个人体边界框分别用14个二进制属性注释（Li，Yining和Huang，Chen，Loy，Chen Change和唐，小ou）

自主驾驶

AMUSE - 在多个测试驱动器中采用实际交通场景的汽车多传感器（AMUSE）数据集。（Philipp Koschorrek等）
自主驾驶 - 语义分割，行人检测，虚拟世界数据，远红外，立体声，驾驶员监控（CVC研究中心，UAB和UPC大学）
自主驾驶（JAAD）的共同关注 - 数据集包括主要用于在自主驾驶中进行行为研究和检测的行人和汽车的实例（Iuliia Kotseruba，Amir Rasouli和John K. Tsotsos）
LISA车辆检测数据集 - 在各种照明和交通条件下驾驶视频的颜色第一人称（Sivaraman，Trivedi）
遗失和找到的数据集 - 失物招领数据集解决了自主驾驶应用中发现意外的小型道路危险（通常由货物丢失造成的）的问题。（Sebastian Ramos，Peter Pinggera，Stefan Gehrig，Uwe Franke，Rudolf Mester，Carsten Rother）
SYNTHIA - 大型（约五十万）虚拟世界图像，用于训练自主车辆。（计算机视觉中心的ADAS集团）
图像和注释的合成集合 - 在驾驶场景的背景下辅助语义分割和相关场景理解问题的目的（计算机视觉中心，UAB）

生物/医药

2008年MICCAI MS病变分期挑战（国家卫生研究院神经科学研究蓝图）
ASU DR-AutoCC数据 - 糖尿病视网膜病变分类数据集的多实例学习特征空间（Ragav Venkatesan，Parag Chandakkar，Baoxin Li - Arizona State University）
Aberystwyth叶评估数据集 - 用手标记植物图像，用手标记一段时间的叶级分割，以及植物牺牲的生物数据。（Bell，Jonathan; Dee，Hannah M.）
脊柱CT脊柱CT数据库用于脊柱定位的定位，125例，242次扫描（Ben Glockern）
BRATS - 大脑多参数磁共振图像中肿瘤结构的识别和分割（TU Munchen等）
CRCHisto表型 - 标记细胞核数据 - 结肠直肠癌组织学图像由近30,000个点状细胞核组成，超过22,000个标记细胞类型（Rajpoot + Sirinukunwattana）
CREMI：MICCAI 2016挑战 - 6卷神经组织电子显微镜，神经元和突触分割，突触伴侣注释。（Jan Funke，Stephan Saalfeld，Srini Turaga，Davi Bock，Eric Perlman）
Cavy Action数据集 - 具有以每秒7.5帧（fps）记录的640×480分辨率的16个序列，总共有大约31621506帧（272GB）的相互作用的空穴（豚鼠）（Al-Raziqi和Denzler）
细胞跟踪挑战数据集 - 具有地面真相的2D / 3D延时视频序列（Ma et al。，Bioinformatics 30：1609-1617，2014）
计算机断层扫描肺气肿数据库（Lauge Sorensen）
DIADEM：轴突和树突状形态学竞赛的数字重建（艾伦脑科学研究所等）
DIARETDB1 - 标准糖尿病视网膜病变数据库（Lappeenranta Univ of Technology）
驱动：用于血管提取的数字视网膜图像（乌得勒支大学）
DeformIt 2.0 - 图像数据增强工具：从单个图像分割对（Brian Booth和Ghassan Hamarneh）模拟具有地面真实分割的新颖图像
可变形图像注册实验室数据集 - 用于客观和可靠地评估可变形图像配准（DIR）空间精度性能。（Richard Castillo等人）
皮肤镜像（Eric Ehrsam）
EPT29。该数据库包含4842个EPTs分类群的1613个标本的图像（Tom等）
FIRE眼底图像注册数据集 - 134视网膜图像对和注册真实（FORTH-ICS）
IRMA（医学应用中的图像检索） - 该集合编辑匿名X射线照片（Deserno TM，Ott B）
KID - 用于医疗决策支持的胶囊内窥镜数据库（Anastasios Koulaouzidis和Dimitris Iakovidis）
叶片分割挑战烟草和拟南芥植物图像（Hanno Scharr，Massimo Minervini，Andreas Fischbach，Sotirios A. Tsaftaris）
MIT CBCL自动鼠标行为识别数据集（Nicholas Edelman）
MUCIC：Masaryk大学细胞图像收集 - 2D / 3D合成图像的细胞/组织为基准（Masaryk大学）
MiniMammographic数据库（Mammographic Image Analysis Society）
蛾精细识别 - 675个相似的类，5344个图像（Erik Rodner等）
小鼠胚胎跟踪数据库 - 细胞分裂事件检测（Marcelo Cicconet，Kris Gunsalus）
OASIS - 开放获取系统的成像研究 - 大脑的500+ MRI数据集（华盛顿大学，哈佛大学，生物医学信息学研究网络）
植物表型数据集 - 适用于植物和叶片检测，分割，跟踪和物种识别的植物数据（M. Minervini，A.Fischbach，H. Scharr，SA Tsaftaris）
视网膜眼底图像 - 血管分叉和交叉的地面实况（格罗宁根大学）
视网膜的结构分析 - 描述（400+视网膜图像，具有地面真实分段和医学注释）
脊柱和心脏数据（伦敦安大略省数字成像组，硕士）
Stonefly9该数据库包含826个973个分类群的Stoneflies（Tom等）的图像，
合成迁移细胞 - 超过98个时间帧的人造迁移细胞（嗜中性粒细胞），各种级别的高斯/泊松噪声和不同路径特征与地面实况。（Constantino Carlos Reyes-Aldasoro博士）
佛罗里达州中部大学 - DDSM：用于筛查乳房X线摄影的数字数据库（佛罗里达州中部大学）
VascuSynth - 120具有地面真相结构的3D血管树（Mengliu Zhao，Ghassan Hamarneh）
VascuSynth - 血管合成器在3D体积中产生血管。（Ghassan Hamarneh，Preet Jassi，Mengliu Zhao）
约克心脏MRI数据集（Alexander Andreopoulos）

相机校准

反折射相机校准图像（Yalin Bastanlar）
GoPro-Gyro数据集 - 该数据集由许多具有相应陀螺仪测量（Hannes等）的广角滚动快门视频序列组成，
LO-RANSAC -LO-RANSAC用于估计单应力和对极几何的库（K.Lebeda，J.Matas和O.Chum）

脸和眼/虹膜数据库

300视频（300 VW） - 68面部地标跟踪（Chrysos，Antonakos，Zafeiriou，Snape，Shen，Kossaifi，Tzimiropoulos，Pantic）
3D面具攻击数据库（3DMAD） - 使用Kinect RGBD与眼睛位置的1765人的帧（Sebastien Marcel）
3D面部表情 - 宾汉顿大学3D静态和动态面部表情数据库（Lijun Yin，Jeff Cohn和队友）
用于面部和扬声器识别的视听数据库（Mobile Biometry MOBIO http://www.mobioproject.org/）
BANCA面部和语音数据库（萨里大学）
Binghampton Univ 3D静态和动态面部表情数据库（Lijun Yin，Peter Gerhardstein和队友）
宾汉顿匹兹堡4D自发面部表情数据库 - 由2D自发面部表情视频和FACS代码组成。（Lijun Yin等）
BioID面部数据库（BioID组）
BioVid热痛数据库 - 这个视频（和生物医学信号）数据集包含受试验诱发的热痛的87名研究参与者的面部和生理心理反应（马格德堡大学（神经信息技术组）和乌尔姆大学（情绪实验室））
生物识别数据库 - 与虹膜识别相关的生物识别数据库（Adam Czajka）
Biwi 3D视听情感语料库 - 1000个高质量，动态的面部3D扫描，同时发布一套英文句子。
博斯普鲁斯3D / 2D数据库的FACS注释面部表情，头部姿势和面部遮挡（Bogazici大学）
漫画/ Photomates数据集 - 具有正面和相应漫画线图的数据集（Tayfun Akgul）
CASIA-IrisV3（中国科学院，TN Tan，Z. Sun）
CASIR凝视估计数据库 - RGB和深度图像（来自Kinect V1.0）和面部特征的地面真值相对于注视估计基准的实验：（Filipe Ferreira等）
CMU面部表情数据库（CMU / MIT）
CMU姿势，照明和表达（PIE）数据库（Simon Baker）
CMU / MIT正面（CMU / MIT）
CMU / MIT正面（CMU / MIT）
CSSE面部正面强度和范围图像（Ajmal Mian）
CelebA - 大型CelebFaces属性数据集（Ziwei Liu，Ping Luo，Xiaogang Wang，Xiaoou Tang）
Cohn-Kanade AU编码表达数据库 - 由激活的动作单元（Affect Analysis Group，Univ。of Pittsburgh）编码的100+个受试者的500+表达序列
Cohn-Kanade AU编码表达数据库 - 用于自动面部图像分析和综合以及感知研究的研究（Jeff Cohn等人）
哥伦比亚凝视数据集 - 5,880张超过5头姿势的56人的图像和21个凝视方向（Brian A. Smith，Qi Yin，Steven K. Feiner，Shree K. Nayar）
计算机视觉实验室面部数据库（CVL面部数据库） - 数据库包含114个人的798张图像，每人7张图像，可免费提供研究用途（Peter Peer等）
DISFA +：自发面部动作数据库的扩展丹佛强度 - DISFA（MH Mahoor）的扩展
DISFA：自发面部动作数据库的丹佛强度 - 一个非拟人脸部表情数据库，用于开发自动动作单元检测的计算机算法以及由FACS描述的强度的人员。（MH Mahoor）
EURECOM面部化妆品数据库 - 389张图片，50个/不含化妆品，关于应用化妆品的数量和位置的注释（Jean-Luc DUGELAY等）
EURECOM Kinect面部数据库 - 52人，2次会议，9个变化，6个面部地标（Jean-Luc DUGELAY等）
EYEDIAP数据集 - EYEDIAP数据集设计用于训练和评估RGB和RGB-D数据的注视估计算法。它包含参与者的多样性，头部姿势，注视目标和感测条件（Kenneth Funes和Jean-Marc Odobez）
FDDB：面部检测数据集和基准 - 学习无约束面部检测（马萨诸塞大学计算机视觉实验室）
FG-Net老龄化不同年龄人脸（手势识别研究网络）
面部识别大挑战数据集（FRVT - 面部识别供应商测试）
面部超分辨率数据集 - 地面实况使用双摄像头设置拍摄的HR-LR脸部图像（Chengchao Qu等）
FaceScrub - 一个拥有超过100,000张脸型的数据集，530人（男性和女性50:50）（H.-W. Ng，S. Winkler）
FaceTracer数据库 - 15,000面（Neeraj Kumar，PN Belhumeur和SK Nayar）
面部表情数据集 - 该数据集由现实世界条件下记录的242张面部视频（168,359帧）组成。（Daniel McDuff等人）
面部识别技术（FERET）数据库（美国国家标准与技术研究所）
汉娜和她的姐妹数据库 - 一个密集的视听人物面孔，语言段，拍摄边界的地面真理注释（Patrick Perez，Technicolor）
香港脸谱数据库
IDIAP头部姿势数据库（IHPD） - 数据集包含一组会议视频以及个人参与者的头部基础（约128分钟）（Sileye Ba和Jean-Marc Odobez）
IMDB-WIKI - 具有年龄和性别标签的500k +脸部图像（Rasmus Rothe，Radu Timofte，Luc Van Gool）
印度电影面孔数据库（IMFDB） - 一个大型无约束的脸部数据库，包含从100多个视频（Vijay Kumar和CV Jawahar）收集的100位印度演员的34512张图像，
伊朗面部数据库 - IFDB是中东第一个图像数据库，包含年龄，姿势和表情的彩色面部图像，其主题在2-85范围内。（Mohammad Mahdi Dehshibi）
日本女性面部表情（JAFFE）数据库（Michael J. Lyons）
LFW：在野外标记的面孔 - 无约束的脸部识别
麻省理工学院CBCL人脸识别数据库（生物与计算学习中心）
麻省理工学院面部数据库整理（Ethan Meyers）
MIT眼睛跟踪数据库（1003图像）（Judd等人）
MMI面部表情数据库 - 2900个视频和75个主题的高分辨率静态图像，注释为FACS AU。
MORPH（颅面纵向形态面部数据库）（北卡罗来纳州威尔明顿大学）
MPIIGaze数据集 - 在不同照明条件和自然头部运动下，具有眼睛图像和注视目标的213,659个样本，在日常使用期间从15名参与者收集笔记本电脑。（Xucong Zhang，Yusuke Sugano，Mario Fritz，Andreas Bulling）
曼彻斯特注释会话视频数据集（Timothy Cootes）
MegaFace - 100万面孔在边框（Kemelmacher-Shlizerman，Seitz，Nech，Miller，Brossard）
音乐视频数据集 - 来自YouTube的8个音乐视频，用于在无约束环境中开发多面部跟踪算法（Shang Zhang，Jia-Bin Huang，Ming-Hsuan Yang）
NIST面部识别大挑战（FRGC）（NIST）
NIST mugshot识别数据库（美国国家标准与技术研究所）
NRC-IIT面部视频数据库 - 该数据库包含一对短视频剪辑，每个视频剪辑显示坐在显示器前面的计算机用户的脸，表现出广泛的面部表情和方向（Dmitry Gorodnichy）
圣母玛利亚图像数据集（Patrick J. Flynn）
巴黎圣母院的脸，红脸，3D脸，表情，人群和眼睛生物特征数据集（巴黎圣母院）
ORL面部数据库：40人有10个意见（ATT剑桥实验室）
OUI-Adience Faces - 未过滤的面部，用于性别和年龄分类以及3D脸部（OUI）
牛津：脸，花，多视图，建筑物，物体类别，运动分割，仿射协变区域，杂项（牛津视觉几何组）
PubFig：公众人脸数据库（Neeraj Kumar，Alexander C. Berg，Peter N. Belhumeur和Shree K. Nayar）
重新标记在野外的脸 - 原始图像，但使用“深漏斗”方法对齐。（马萨诸塞大学，阿默斯特）
SCface - 监控摄像机面部数据库（Mislav Grgic，Kresimir Delac，Sonja Grgic，Bozidar Klimpak））
人类视觉输入的注视对齐记录的显着特征 - 人类注视 - 野外数据的结核（Frank Schumann等）
SiblingsDB - SiblingsDB包含两个描述与兄弟关系相关的个人图像的数据集。（都灵视觉/计算机图形与视觉组）
CMU Multi-PIE Face数据库 - 超过75万张337人的影像，记录在五个月的四个会议期间。（Jeff Cohn等人）
UNBC-McMaster肩痛表达档案数据库 - 痛苦的数据：UNBC-McMaster肩痛症状表达档案数据库（Lucy等）
特隆赫姆Kinect RGB-D人重新识别数据集（Igor Barros Barbosa）
UB KinFace数据库 - 布法罗大学亲属验证和识别数据库
UBIRIS：嘈杂可见波长虹膜图像数据库（贝拉大学）
UTIRIS交叉光圈虹膜图像数据库（Mahdi Hosseini）
VIPSL数据库 - VIPSL数据库用于面部素描 - 照片合成和识别的研究，包括200个科目（每张科目1张照片和5张素描）（王南南）
华盛顿面部表情数据库（FERG-DB）） - 具有7个注释面部表情的6个风格化（Maya）角色的数据库（Deepali Aneja，Alex Colburn，Gary Faigin，Linda Shapiro和Barbara Mones）
宽面：脸部检测基准 - 32,203张有393,703张贴面的图像，61个事件班（Shuo Yang，Ping Luo，Chen Change Loy，Xiaoou Tang）
XM2VTS面部视频序列（295）：扩展的M2VTS数据库（XM2VTS） -（萨里大学）
耶鲁脸数据库 - 10人的11个表达（A. Georghaides）
耶鲁脸数据库B - 576人观看条件（A. Georghaides）
约克大学眼睛跟踪数据集（120图像）（Neil Bruce）
YouTube Faces DB - 3,425个视频，1,595个不同的人。（Wolf，Hassner，Maoz）
苏黎世自然图像 - 用于在一系列眼睛跟踪研究中创建自然刺激的图像材料（Frey等人）

指纹

FVC指纹验证竞赛2002数据集（博洛尼亚大学）
FVC指纹验证竞赛2004数据集（博洛尼亚大学）
指纹手册明细标记（FM3）数据库： - 指纹手册细节标记（FM3）数据库（Mehmet Kayaoglu，Berkay Topcu和Umut Uludag）
NIST指纹数据库（美国国家标准与技术研究所）
SPD2010指纹单点检测比赛（SPD 2010委员会）

一般图像

用于实际低光图像降噪的数据集 - 它包含由低光照相机噪声和低噪声对应物损坏的像素和强度对齐的图像对。（J.Anaya，A.Barbu）
与Vincent van Gogh相关的绘画数据库 - 这是为“从印象派到表现主义：自动识别梵高的绘画”（Guilherme Folego和Otavio Gomes and Anderson Rocha）的论文VGDB-2016，
AMOS：许多户外场景的档案（20 + m）（Nathan Jacobs）
空中图像使用不变颜色特征和阴影信息从空间图像构建检测（Beril Sirmacek）
BGU自然场景的高光谱图像数据库（Ohad Ben-Shahar and Boaz Arad）
布朗大二进制图像数据库（Ben Kimia）
CMP门面数据库 - 包括606个修正的外墙图像，具有12个建筑类别的地方（Radim Tylecek）
Caltech-UCSD鸟类200-2011（凯瑟琳华）
哥伦比亚多光谱图像数据库（F. Yasuma，T. Mitsunaga，D. Iso和SK Nayar）
DAQUAR（视觉图灵挑战） - 包含有关真实室内场景的问题和答案的数据集（Mateusz Malinowski，Mario Fritz）
美国电影预告片的数据集2010-2014 - 包含474份好莱坞电影预告片的链接以及相关的元数据（类型，预算，运行时，版本，MPAA评分，发布的屏幕，续集指标）（USC信号分析和解释实验室）
一般100数据集 - General-100数据集包含100个bmp格式的图像（无压缩），非常适合超分辨率训练（Dong，Chao和Loy，Chen Change和Tang，Xiaoou）
HIPR2图像不同类型图像的目录（Bob Fisher等）
用于自然场景中局部照明的空间分布的高光谱图像 - 自然场景的三十个校准的高光谱辐射图像，用于局部照明估计的探针球。（Nascimento，Amano＆Foster）
自然场景的高光谱图像 - 2002（David H. Foster）
自然场景的高光谱图像 - 2004（David H. Foster）
ISPRS多平台摄影测量数据集 - 1）天底和斜面航空图像加2）组合无人机和陆地图像（Francesco Nex和Markus Gerke）
LIVE的图像和视频质量评估 - 用于开发图像质量算法（德克萨斯大学奥斯汀分校）
ImageNet大型视觉识别挑战 - 目前有200个对象类和500 + K图像（Alex Berg，Jia Deng，Fei-Fei Li等）
ImageNet语言组织（WordNet）分层图像数据库 - 10E7图像，15K类（李飞飞，贾登，郝苏，凯丽）
改进的3D稀疏映射用于具有低成本全向机器人的运动的高性能结构 - 评估数据集 - 研究论文中使用的数据集doi：10.1109 / ICIP.2015.7351744（Breckon，Toby P.，Cavestany，Pedro）
LabelMeFacade数据库 - 945标签的建筑图像（Erik Rodner等）
局部照明超光谱辐射图像 - 具有嵌入式探针球的自然场景的三十个高光谱辐射图像用于局部照度估计（Sgio MC Nascimento，Kinjiro Amano，David H.Foster）
麦吉尔校准彩色图像数据库（Adriana Olmos和Fred Kingdom）
乘以扭曲图像数据库 - 用于评估多重扭曲图像的图像质量评估指标的结果的数据库（费周）
NPRgeneral - 用于评估图像风格化算法的图像的标准化集合。（David Mold，Paul Rosin）
纽约大学对称数据库 - 176个单对称和63个多对称图像（Marcelo Cicconet和Davi Geiger）
OTCBVS热成像基准数据集收集（俄亥俄州立团队）
PAnorama稀疏结构区数据集 - 用于评估图像对齐的PASSTA数据集（Andreas Robinson）
自然场景的超时光高光谱图像 - 一天中采用的自然场景的7-9个校准高光谱辐射图像的四个延时序列。（Foster，DH，Amano，K.，＆Nascimento，SMC）
延时高光谱辐射图像 - 自然场景的7-9个校准高光谱图像的四个延时序列，10 nm间隔的光谱（David H. Foster，Kinjiro Amano，Sgio MC Nascimento）
微图像数据集 79万32x32彩色图像（Fergus，Torralba，Freeman）
视觉问题回答 - 254K imags，764K问题，地面实况（Agrawal，Lu，Antol，Mitchell，Zitnick，Batra，Parikh）
视觉问题生成 - 15k图像（包括以对象为中心和以事件为中心的图像），有75k个自然问题涉及可以引起进一步交谈的图像（Nasrin Mostafazadeh，Ishan Misra，Jacob Devlin，Margaret Mitchell，Xiao Dong He，Lucy Vanderwende ）
YFCC100M：多媒体研究中的新数据 - 这个公开的1百万张照片和视频的策划数据集是免费的，所有人都是合法的（Bart ThomeeYahoo Labs和Flickr在旧金山等）

一般RGBD和深度数据集

注意：在其他地方也有3D数据集，例如在对象，场景和动作中。

3D打印RGB-D对象数据集 - 5个具有groundtruth CAD模型和摄像机轨迹的对象，采用各种高质量的RGB-D传感器（Siemens＆TUM）
3DCOMET - 3DCOMET是一种用于测试3D数据压缩方法的数据集（Miguel Cazorla，Javier Navarrete，Vicente Morell，Miguel Cazorla，Diego Viejo，Jose Garcia-Rodriguez，Sergio Orts）
用于从RGB-D数据进行非刚性重建的数据集 - 用于从RGB-D数据重建非刚性几何的八个场景，每个都包含数百个帧以及我们的结果。（Matthias Innmann，Michael Zollhoefer，Matthias Niessner，Christian Theobalt，Marc Stamminger）
对象扫描的大数据集 - 39个对象在9个卡斯，每个数百帧（崔，周，米勒，科尔屯）
铰接对象挑战 - 由1D旋转和棱柱连接连接的钻石部件组成的4个关节物体，具有6D姿态估计注释的7000+ RGBD图像（Frank Michel，Alexander Krull，Eric Brachmann，Michael Y.Yang，Stefan Gumhold，Carsten Rother ）
BigBIRD - 每个对象有100个对象，600个3D点云和600个高分辨率彩色图像，涵盖所有视图（Singh，Sha，Narayan，Achim，Abbeel）
CAESAR平民美国和欧洲表面人体测量资源项目 - 4000 3D人体扫描（SAE国际）
CIN 2D + 3D对象分类数据集 - 来自18个类别的普通家庭和办公室对象的对象的分段颜色和深度图像（Bj？rn Browatzki等）
CoRBS - 一个RGB-D SLAM基准测试，提供真实深度和颜色数据的组合以及相机的地面真实轨迹和场景的地面真相3D模型（Oliver Wasenmuller）
CTU服装折叠照片数据集 - 衣服折叠各个阶段的色彩和深度图像（Sushkov R.，Melkumov I.，Smutn y V.（捷克技术大学在布拉格））
CTU服装分类数据集 - 服装图像数据集，详细的立体图像，深度图像和重量（Petrik V.，Wagner L.（捷克技术大学在布拉格））
服装零件数据集 - 服装零件数据集包括用Kinect获取的图像和深度扫描，铺设在桌子上的服装，使用多边形面具超过一千个注释（领，袖口，罩等）（Arnau Ramisa， Guillem Aleny，Francesc Moreno-Noguer和Carme Torras）
康奈尔RGBD数据集 - 办公场景（Hema Koppula）
代尔夫特风车内部和外部激光扫描点云 - （Beril Sirmacek）
EURECOM Kinect面部数据库 - 52人，2次会议，9个变化，6个面部地标（Jean-Luc DUGELAY等）
EURECOM Kinect面部数据库 - 52人，2次会议，9个变化，6个面部地标（Jean-Luc DUGELAY等）
G4S元房 - RGB-D数据150扫描每扫描18幅图像。（John Folkesson等人）
Goldfinch：GOOGLe图像搜索精细粒子数据集 - 精细的鸟类（11K种类），蝴蝶（14K种），飞机（409种）和狗（515种）识别的大规模数据集（Jonathan Krause，Benjamin Sapp， Andrew Howard，Howard Zhou，Alexander Toshev，Tom Duerig，James Philbin，Li Fei-Fei）
IMPART多视图/多模态2D + 3D电影制作数据集 - LIDAR，视频，3D模型，球形相机，RGBD，立体声，动作，面部表情等（萨里大学）
Kinect v2数据集 - 使用内核密度估计的高效多频相位展开（Felix等）
McGill-Reparti人工感知数据库 - 来自四个摄像机的RGBD数据和两个人类对象的未过滤的Vicon骨架数据，在车门上执行模拟装配任务（Andrew Phan，Olivier St-Martin Cormier，Denis Ouellet，Frank P. Ferrie）。
元间房 - RGB-D数据由28个对准的深度相机图像组成，通过使机器人进入特定位置并以各种倾斜进行360度的平移而收集。（John Folkesson等人）
MHT RGB-D - 由林肯大学在16天内每5分钟由机器人收集。（John Folkesson等人）
用于具有全姿态估计的对象识别的多传感器3D对象数据集 - 用于对象识别和姿势估计的多传感器3D对象数据集（Alberto Garcia-Garcia，Sergio Orts-Escolano，Sergiu Oprea等）
NTU RGB + D动作识别数据集 - NTU RGB + D是人类行动识别的大规模数据集（Amir Shahroudy）
NYU深度数据集V2 - RGBD图像的室内分割和支持推理
奥克兰3点云数据集（Nicolas Vandapel）
Pacman项目 - 来自20个课程的400个对象的合成RGB-D图像。由3D网格模型生成（Vladislav Kramarev，Umit Rusen Aktas，Jeremy L. Wyatt。）
SceneNN：场景网格数据集，带有NNotations - 具有100多个室内场景的RGB-D场景数据集，标记为三角形网格，体素和像素。（Hua，Pham，Nguyen，Tran，Yu和Yeung）
语义8：8类三维点云分类（苏黎世苏黎世科技大学）
小型办公室数据集 - 从2014年4月开始每5秒钟运行一次Kinect深度图像，并持续进行。（John Folkesson等人）
具有实况的立体声和ToF数据集 - 数据集包含采用飞行时间传感器和立体声设置获取的5种不同场景。还提供了地面真相信息（Carlo Dal Mutto，Pietro Zanuttigh，Guido M. Cortelazzo）
SYNTHIA - 大型（约五十万）虚拟世界图像，用于训练自主车辆。（计算机视觉中心的ADAS集团）
TUM RGB-D基准 - 用于评估RGB-D视觉测距和SLAM算法的数据集和基准（BCrgen Sturm，Nikolas Engelhard，Felix Endres，Wolfram Burgard和Daniel Cremers）
UC-3D运动数据库 - 可用的数据类型包括采用Xsens和Microsoft Kinect RGB和深度图像的MVN Suit采集的高分辨率运动捕捉（葡萄牙科英布拉系统与机器人研究所）
USF范围图像数据库 - 400+激光测距仪和结构光照相机图像，许多具有地面真实分割（Adam et al。）
华盛顿RGB-D对象数据集 - 300个普通家庭对象和14个场景。（华盛顿大学和英特尔实验室西雅图）
Witham码头 - 对于由林肯大学在10天内每10分钟由机器人收集的8个地点的RGB-D。（John Folkesson等人）

一般视频

AlignMNIST - 人工扩展版本的MNIST手写数据集。（恩·豪伯格）
DAVIS：视频对象分割数据集 - 密集注释的VIdeo分割（F.Perazzi，J.Pont-Tuset，B.McWilliams，L.VanGol，M.Gross和A.Sorkine-Hornung，SC Prat）
GoPro-Gyro数据集 - 以自我为中心的视频（Linkoping Computer Vision Laboratory）
LIVE的图像和视频质量评估 - 用于开发图像质量算法（德克萨斯大学奥斯汀分校）
大型YouTube视频数据集 - 从YouTube视频（易阳）抓取的156,823个视频（2,907,447个关键帧）
MovieQA - 每台机器通过回答有关他们的问题来了解故事。15000多项选择QAs，400多部电影（M。Tapaswi，Y. Zhu，R. Stiefelhagen，A. Torralba，R. Urtasun和S. Fidler）
多光谱可见NIR视频序列 - 注释多光谱视频，可见+ NIR（LE2I，布尔戈尼大学）
Sports-1M - 体育视频分类数据集，包含487类和1.2M影片（Andrej Karpathy和George Toderici，Sanketh Shetty，Thomas Leung，Rahul Sukthankar和Li Fei-Fei）。
视频序列用于基于对相机的最小假设（Kenton McHenry）的欧几里德升级研究
视频堆叠数据集 - 手机视频堆叠在智能手机上的虚拟三脚架（Erik Ringaby等）
YFCC100M视频 - YFCC100M的视频子集的基准，包括视频，他的视频内容功能和API到最先进的视频内容引擎（Lu Jiang）
YFCC100M：多媒体研究中的新数据 - 这个公开的1百万张照片和视频的策划数据集是免费的，所有人都是合法的（Bart Thomee，Yahoo Labs和Flickr在旧金山等）
YouTube-8M - 野外视频分类的数据集，包含8M视频和4800课程的预提取帧级功能（Sami Abu-El-Haija，Nisarg Kothari，Joonseok Lee，Paul Natsev，George Toderici，Balakrishnan Varadarajan， Sudheendra Vijayanarasimhan）
YouTube-8M数据集 - 视频理解研究（Google Inc.）的大型多样化标签视频数据集

手，掌握，手动和手势数据库

单眼图像的3D铰接手姿态估计（Tang，Chang，Tejani，Kim，Yu）
人机操作数据集 - 25对象和6动作的RGB-D（Alessandro Pieropan）
手势检测数据集（Javier Molina等）
A-STAR注释手深图像数据及其性能评估 - 深度数据和数据手套数据，30位志愿者，中文号码和美国手语（徐和成）的29张图像，
Bosphorus手几何数据库和手静脉数据库（Bogazici大学）
EgoHands - 一个大型数据集，拥有超过15,000个像素级分割的手从相互交互的人的自我中心摄像头记录下来。（Sven Bambach）
FORTH手跟踪库（FORTH）
一般手册：一般手检和姿势挑战 - 22个不同手势，活动和观点的序列（UC Irvine）
掌握不确定（GUN-71）数据集 - 使用71个细粒度抓图的分类法注释的物体操纵场景的12,000个第一人称RGB-D图像（Rogez，Supancic和Ramanan）
手势和海洋剪影（Euripides GM Petrakis）
HandNet：铰接手的注释深度图像214971由手姿势的RealSense RGBD传感器捕获的手的注释深度图像。注释：每像素类，6D指尖姿势，热图。图片 - >火车：202198，测试：10000，验证：2773.记录在GIP实验室，Technion。
IDIAP手姿势/手势数据集（Sebastien Marcel）
Kinect和Leap运动手势识别数据集 - 数据集包含与Leap Motion和Kinect设备一起获得的1400种不同手势（Giulio Marin，Fabio Dominio，Pietro Zanuttigh）
Kinect和Leap运动手势识别数据集 - 数据集包含使用Creative Senz3D摄像头获取的几种不同的静态手势（A。Memo，L. Minto，P. Zanuttigh）
LISA CVRR-HANDS 3D - 由8名作为汽车司机和乘客（Ohn-Bar和Trivedi）执行的19个手势
LISA车辆检测数据集 - 在各种照明和交通条件下驾驶视频的颜色第一人称（Sivaraman，Trivedi）
MPI Dexter 1用于3D关节手运动跟踪评估的数据集 - Dexter 1：7具有挑战性，缓慢和快速手动运动的序列，RGB +深度（Sridhar，Oulasvirta，Theobalt）
MSR实时和可靠的深度跟踪 - （钱，孙，魏，唐，孙）
手机和网络摄像头手图像数据库 - MOHI和WEHI - 200人，每张30张（Ahmad Hassanat）
纽约大学手势数据集 - 8252测试集和72757训练集帧捕获的RGBD数据与地面真相手势，3视图（汤普森，斯坦因，莱昆，佩林）
Sahand动态手势数据库 - 该数据库包含11种动态手势，旨在传达鼠标和触摸屏功能到计算机（Behnam Maleki，Hossein Ebrahimnezhad）
谢菲尔德手势数据库 - 2160 RGBD手势序列，6个科目，10个手势，3个姿势，3个背景，2个照明（Ling Shao）
UT掌握数据集 - 4个对象用各种掌握抓住各种对象（蔡，北谷，佐藤）
耶鲁人类掌握数据集 - 27小时视频，带有标记的抓握，对象和任务数据，来自两位管家和两名机械师（Bullock，Feix，Dollar）

图像，视频和形状数据库检索

ANN_SIFT1M - 由128D SIFT描述符编码的1M Flickr图像（Jegou等）
Brown Univ 25/99/216形状数据库（Ben Kimia）
来自10个类的CIFAR-10 - 60K 32x32图像，512D GIST描述符（Alex Krizhevsky）
CLEF-IP 2011专利图像评估
结构查询和空间关系的数据集 - 关于图像的结构化查询的数据集，强调空间关系（Mateusz Malinowski，Mario Fritz）
DeepFashion - 大型时尚数据库（刘紫伟，平罗，石秋，王小刚王晓棠）
EMODB - picsearch图像搜索引擎中的图像缩略图以及picsearch情感关键词（Reiner Lenz等）
ETU10剪影数据集 - 数据集由10个对象的720个剪影组成，每个对象有72个视图（M。Akimaliev和MF Demirci）
鱼形数据库 - 它是一个鱼形数据库，具有100，2D点集的形状。（Adrian M. Peter）
Flickr 30K - 图像，动作和标题（Peter Young等）
Flickr15k - 基于草图的图像检索（SBIR）基准 - 330个草图和15,024张照片的数据集，包括33个对象类别，通常用于评估基于草图的图像检索（SBIR）算法的基准数据集（Hu and Collomosse，CVIU 2013）
IAPR TC-12图像基准（Michael Grubinger）
IAPR-TC12分段和注释图像基准测试（SAIAPR TC-12）：（ Hugo Jair Escalante）
ImageCLEF 2010概念检测和注释任务（Stefanie Nowak）
ImageCLEF 2011概念检测和注释任务 - Flickr照片中的多标签分类挑战
METU商标数据集 METU数据集由全球超过900K个真实标志组成。（Usta Bilgi Sistemleri AS和Grup Ofis Marka专利AS）
MPI电影描述数据集 - 文本和视频（A. Rohrbach）
麦吉尔3D形状基准（Siddiqi，Zhang，Macrini，Shokoufandeh，Bouix，Dickinson）
多视觉立体声评估 - 每个数据集通过激光扫描过程获得的“地面真相”3D模型进行注册（Steve Seitz等）
NIST SHREC - 其他NIST检索比赛数据库和链接（美国国家标准与技术研究所）
NIST SHREC 2010 - 非刚性3D模型的形状检索比赛（美国国家标准与技术研究所）
NIST TREC视频检索评估数据库（美国国家标准与技术研究所）
NUS-WIDE - 269K Flickr图像用81个概念标签注释，作为500D BoVW描述符加密等等）
普林斯顿形状基准（Princeton Shape Retrieval and Analysis Group）
昆士兰跨媒体数据集 - 数百万图像和文本文件，用于“跨媒体”检索（易阳）
TOSCA 3D形状数据库（Bronstein，Bronstein，Kimmel）
YouTube-8M数据集 - 视频理解研究（Google Inc.）的大型多样化标签视频数据集

对象数据库

2.5D / 3D各种对象和场景的数据集（Ajmal Mian）
3D对象识别立体数据集该数据集由9个对象和80个测试图像组成。（Akash Kushal和Jean Ponce）
3D摄影数据集是我们实验室（Yasutaka Furukawa和Jean Ponce）收集的十个多视图数据集的集合，
3D打印RGB-D对象数据集 - 5个具有groundtruth CAD模型和摄像机轨迹的对象，采用各种高质量的RGB-D传感器（Siemens＆TUM）
3DNet数据集 - 3DNet数据集是从点云数据中获取对象类识别和6DOF姿态估计的免费资源。（John Folkesson等人）
阿姆斯特丹对象图书馆（ALOI）：1K物体的100K视图（阿姆斯特丹大学/智能感官信息系统）
B3DO：伯克利3-D对象数据集 - 家庭对象检测（Janoch等人）
超越PASCAL：野外3D对象检测的基准 - 12个类，每个具有3D注释的3000多个图像（Yu Xiang，Roozbeh Mottaghi，Silvio Savarese）
布里斯托尔中心对象交互数据集 - 与同心目的的自我中心对象交互（Dima Damen）
CORE图像数据集 - 帮助学习更详细的模型和探索对象识别中的跨类别泛化。（Ali Farhadi，Ian Endres，Derek Hoiem和David A. Forsyth）
传播服装的CTU颜色和深度图像数据 - 具有注释角落的散布服装的图像（Wagner，L.，Krejov D.，Smutn V.（捷克技术大学在布拉格））
Caltech 101（现256）类别对象识别数据库（李飞飞，Marco Andreeto，Marc’Aurelio Ranzato）
卡塔尼亚鱼类物种识别 - 15种鱼类，约20,000个样本训练图像和附加测试图像（Concetto Spampinato））
哥伦比亚COIL-100 3D对象多视图（哥伦比亚大学）
密集抽样对象视图：2500个视图的2个对象，例如基于视图的识别和建模（Gabriele Peters，Universiteit Dortmund）
EDUB-Obj - 用于对象定位和分割的Egocentric数据集（MarcBolaños和Petia Radeva。）
椭圆查找数据集（Dilip K. Prasad等）
GDXray：用于X射线测试和计算机视觉的X射线图像 - GDXray包括五组图像：铸件，焊缝，行李，自然和设置。（智利天主教大学Domingo Mery）
GRAZ-02数据库（自行车，汽车，人）（A. Pinz）
GTSDB：德国交通标志检测基准（Ruhr-Universitat Bochum）
ICubWorld - iCubWorld数据集是通过从iCub类人形机器人的摄像机记录而收集的图像，同时观察日常物体（Giulia Pasquale，Carlo Ciliberto，Giorgio Metta，Lorenzo Natale，Francesca Odone和Lorenzo Rosasco）。
关键点5数据集 - 具有二维关键点标签的五种家具数据集（吴嘉钧，田天凡，约瑟夫·林，田东田，何塞·Tenenbaum，安东尼奥·托拉尔巴，比尔·弗里曼）
KTH-3D-TOTAL - RGB-D数据与桌面上的对象注释。20个书桌，每天3次，超过19天。（John Folkesson等人）
LISA交通信号灯数据集 - 各种照明条件下的6种灯光类（Jensen，Philipsen，Mogelmose，Moeslund和Trivedi）
LISA交通标志数据集 - 在6610帧（Mogelmose，Trivedi和Moeslund）上的47个美国标志类型的视频，7855个注释
Linkoping 3D对象姿势估计数据库（Fredrik Viksten和Per-Erik Forssen）
Linkoping交通标志数据集 - 2088张图像中的3488个交通标志（Larsson和Felsberg）
Longterm Labeled - 此数据集包含来自longterm数据集（上述longterm数据集）的观察数据的一部分。（John Folkesson等人）
麻省理工学院CBCL汽车数据（生物和计算学习中心）
麻省理工学院CBCL StreetScenes挑战框架：（Stan Bileschi）
Microsoft COCO - 上下文中的常见对象（Tsung-Yi Lin et al）
Microsoft对象类识别图像数据库（Antonio Criminisi，Pushmeet Kohli，Tom Minka，Carsten Rother，Toby Sharp，Jamie Shotton，John Winn）
微软突出对象数据库（由边界框标注）（刘，孙正，唐，舒）
ModelNet - 127,915 CAD模型，662对象类别，10个具有注释方向的类别（Wu，Song，Khosla，Yu，Zhang，Tang，Xiao）
移动Labled - 此数据集在KTH的同一办公环境中扩展了更多位置的longterm数据集。（John Folkesson等人）
NABirds数据集 - 北美通常观察到的400种鸟类的70,000张注释照片（Grant Van Horn）
NEC玩具动物识别或分类数据库（Hossein Mobahi）
NORB 50玩具图像数据库（NYU）
NTU-VOI：NTU视频对象实例数据集 - 具有用于评估大型视频中的对象实例搜索和本地化的对象实例的帧级边界框注释的视频剪辑（Jingjing Meng等人）
对象姿势估计数据库 - 该数据库包含16个对象，每个对象以两个旋转轴（F. Viksten等）以5度角增量进行采样，
对象识别数据库该数据库具有8个对象的建模镜头和包含多个对象的51个杂乱的测试镜头（Fred Rothganger，Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）
PacMan数据集 - 用于可抓取的炊具和陶器的RGB和3D合成和实际数据（Jeremy Wyatt）
PASCAL 2007挑战图像数据库（摩托车，汽车，奶牛）（PASCAL联盟）
PASCAL 2008挑战图像数据库（PASCAL Consortium）
PASCAL 2009挑战图像数据库（PASCAL联盟）
PASCAL 2010挑战图像数据库（PASCAL联盟）
PASCAL 2011挑战图像数据库（PASCAL联盟）
PASCAL 2012挑战图像数据库类别分类，检测和分割以及静态图像动作分类（PASCAL Consortium）
PASCAL图像数据库（摩托车，汽车，奶牛）（PASCAL Consortium）
PASCAL零件数据集 - PASCAL VOC与物体语义部分的分割注释（Alan Yuille）
PASCAL-Context数据集 - 400多个附加类别的注释（Alan Yuille）
物理101数据集 - 五种不同场景中的101种物体的视频数据集（Jiajun Wu，Joseph Lim，Hongyi Zhang，Josh Tenenbaum，Bill Freeman）
雨滴检测 - 使用组合形状和显着性描述符与场景背景隔离改进的雨滴检测 - 评估数据集（Breckon，Toby P.，Webster，Dereck D.）
瑞典叶数据集 - 这些图像包含15个treeclasses的叶子（Oskar JO S？derkvist）
T-LESS - 用于6D姿势估计无纹理对象的RGB-D数据集（Tomas Hodan，Pavel Haluza，Stepan Obdrzalek，Jiri Matas，Manolis Lourakis，Xenophon Zabulis）
TUW对象实例识别数据集 - 从各种观点观察并表示为Kinect RGB-D点云的对象实例及其6DoF姿态对于混乱室内场景的注释（Thomas，A. Aldoma，M.Zillich，M.Vincze）
TUW数据集 - TUW的几个RGB-D地面真值和注释数据集。（John Folkesson等人）
UAH交通标志数据集（Arroyo等）
UIUC汽车影像数据库（UIUC）
UIUC数据集3D对象类别（S. Savarese和L. Fei-Fei）
威尼斯3D对象在杂波识别和分割（Emanuele Rodola）
可视属性数据集超过500个对象类（动画和无生命）的视觉属性注释，都在ImageNet中表示。每个对象类都基于具有636个属性的分类法（例如，具有金属制成的毛皮，圆形）的视觉属性来注释。
视觉基因组：使用群众密集图像注释连接语言和视觉 - 视觉基因组是一个数据集，知识库，持续的将结构化图像概念与语言连接的努力（Ranjay Krishna，Yuke Zhu，Oliver Groth，Justin Johnson，Kenji Hata， Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li Jia-Li，David Ayman Shamma，Michael Bernstrein，Li Fei-Fei）
视觉船体数据设置一组视觉船体数据集（Svetlana Lazebnik，Yasutaka Furukawa和Jean Ponce）

人（静），人体姿势

在电影院标记的帧（ FLIC ） - 标有人体姿势的20928帧（Sapp，Taskar）
利兹体育姿势数据集 - 2000姿态大多数体育运动人物的注释图像（约翰逊，永恒）
MPII人体姿态数据集 - 25K幅图像，包含超过40K个具有注释的身体关节的人物，410人类活动{Andriluka，Pishchulin，Gehler，Schiele）
MPII人体姿态数据集 - MPII人体姿势数据集是用于评估关节人脸姿态估计的事实上的标准基准。（Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，Bernt Schiele）
人物相册 - 社会媒体照片数据集与Flickr的图像，手动注释的人头和他们的身份（宁张和Manohar Paluri和Yaniv泰格曼和Rob Fergus和Lubomir Bourdev）
个人照片集中的人物识别 - 我们为评估和长时间属性注释和每张照片时间戳元数据引入了三个更难的划分（噢，Seong Joon和Benenson，Rodrigo和Fritz，Mario和Schiele，Bernt）
指点’04 ICPR车间头姿图数据库
UC-3D运动数据库 - 可用的数据类型包括采用Xsens和Microsoft Kinect RGB和深度图像的MVN Suit采集的高分辨率运动捕捉（葡萄牙科英布拉系统与机器人研究所）
VGG人体姿态估计数据集，包括BBC姿势（20个视频与重叠的手语翻译），扩展BBC姿势（72个额外的训练视频），短BBC姿势（5个1小时视频与手语签名者）和ChaLearn姿势（23小时的Kinect数据27人执行20意大利手势）。（Charles，Everingham，Pfister，Magee，Hogg，Simonyan，Zisserman）

人员检测和跟踪数据库

3D KINECT性别步行数据库（L。Igual，A. Lapedriza，R. Borr＆agrave; s来自UB，CVC和UOC，西班牙）
AGORASET：人群视频分析数据集（Nicolas Courty等）
CASIA步态数据库（中国科学院）
CAVIAR项目视频序列跟踪和行为基础真相（CAVIAR团队/爱丁堡大学 - EC项目IST-2001-37540）
CMU Panoptic Studio数据集 - 由500多台同步摄像机捕获的多人社交互动数据集，具有3D全身骨骼和校准数据。（H. Joo，T. Simon，Y. Sheikh）
大众人群数据集 - 来自215个拥挤场景的474个视频片段（邵，洛和王）
CUHK01数据集：具有3,884个行人图像的人员重新编号数据集（Rui Zhao等人）
CUHK02数据集：具有五个摄像机视图设置的人员重新编号数据集。（Rui Zhao et al）
CUHK03数据集：拥有1,360名行人13,164张图像的人物重新编号数据集（芮钊等）
Caltech行人数据集（P. Dollar，C.Wojek，B.Schiele和P. Perona）
戴姆勒行人检测基准 21790图像与56492行人和空场景（DM Gavrila等人）
驱动程序监控视频数据集（RobeSafe + Jesus Nuevo-Chiquero）
DukeMTMC：杜克多目标多摄像机跟踪数据集 - 8个摄像头，85分钟，2米帧，2000人视频（Ergys Ristani，Francesco Solera，Roger S. Zou，Rita Cucchiara，Carlo Tomasi）
爱丁堡高架摄像头人物跟踪数据集（Bob Fisher，Bashia Majecka，Gurkirt Singh，Rowland Sillito）
GVVPerfcapEva - 人体形态和性能捕获数据库，包括全身骨骼，手跟踪，身体形态，面部表现，交互（Christian Theobalt）
HAT数据库的27个人类属性（Gaurav Sharma，Frederic Jurie）
INRIA人物数据集（Navneet Dalal）
即时数据集 - 此数据集专为估计个人关系而设计。（Xiao Chu et al。）
Inria运动基准的穿戴式人体 - 包含不同主题，运动和服装风格的3D运动序列的基准测试，可以定量测量身体形状估计的准确性（Jinlong Yang，Jean-Sbastien Franco，Franck H = E9troy-Wheeler，和Stefanie Wuhrer）
伊兹密尔（Izmir） - 用于人类和汽车检测（Yalin Bastanlar）的全向和全景图像数据集（带注释）
自主驾驶（JAAD）的共同关注 - 数据集包括主要用于在自主驾驶中进行行为研究和检测的行人和汽车的实例（Iuliia Kotseruba，Amir Rasouli和John K. Tsotsos）
MAHNOB：MHI-Mimicry数据库 - 一个2人，多个摄像头和麦克风数据库，用于在人与人之间的交互场景中学习模拟。（Sun，Lichtenauer，Valstar，Nijholt和Pantic）
MIT CBCL行人数据（生物与计算学习中心）
MPI DYNA - 动态人形运动模型（Max Planck Tubingen）
MPI FAUST数据集包含300个真实，高分辨率人类扫描的数据集，具有自动计算的地面真相对应关系（Max Planck Tubingen）
MPI JHMDB数据集 - 联合注释的人体运动数据库 - 21个动作，928个剪辑，33183帧（Jhuang，Gall，Zuffi，Schmid和Black）
MPI MOSH运动和形状捕捉从标记。MOCAP数据，3D形状网格，3D高分辨率扫描。（马克斯·普朗克·图宾根）
MVHAUS-PI - 一种多视角人类交互识别数据集（Saeid et al。）
市场1501数据集 - 最多6台相机的1,501个身份的32,668个注释边界框（梁正等）
摩德纳和雷焦艾米利亚第一人称动议视频（摩德纳和雷焦艾米利亚大学）
日常生活的多式联运活动 - 包括视频，音频，生理，睡眠，运动和插头传感器。（Alexia Briasouli）
多目标跟踪基准 - 具有实地真相的数据集合，以及一个绩效联盟表（ETHZ，U. Adelaide，TU Darmstadt）
多光谱可见NIR视频序列 - 注释多光谱视频，可见+ NIR（LE2I，布尔戈尼大学）
纽约大学多目标跟踪基准（Konrad Schindler等）
闭合的人体数据集 - 身体姿势提取和跟踪在闭塞下，6个RGB-D序列（3500帧）与一个，两个和三个用户，基于标记的地面真相数据（Markos Sigalas，Maria Pateraki，Panos Trahanias）
PARSE数据集附加数据 - 面部表情，凝视方向和性别（Antol，Zitnick，Parikh）
铰链机构的PARSE数据集 - 300张人和马的图像（拉曼）
PETS 2009 Crowd Challange数据集（Reading University＆amp; James Ferryman）
PETS冬季2009年研讨会数据（Reading University＆amp; James Ferryman）
PETS：跟踪和监视的绩效评估（Reading University＆amp; James Ferryman）
PIROPO - 具有透视和全向相机的室内红宝石的人员，拥有超过100,000个注释框架（GTI-UPM，西班牙）
人民艺术 - 一张数据库，内含人物贴上照片和艺术作品（齐武和泓平蔡）
Photo-Art-50 - 一个数据库，包含照片和图画中标注的50个对象类（Qi Wu and Hongping Cai）
基于像素的变化检测基准数据集（Goyette等）
RADD - 室内 - 室外数据集中的重新识别：43人，4台摄像机，6920张图像（Abir Das等人）
SYNTHIA - 大型（约五十万）虚拟世界图像，用于训练自主车辆。（计算机视觉中心的ADAS集团）
Shinpuhkan 2014 - 一个人重新识别数据集，包含由16台摄像机捕获的24人的22,000张图像。（Yasutomo Kawanishi等）
斯坦福结构化集团发现数据集 - 发现图像中的人群（W. Choi等人）
寺庙颜色128 - 颜色跟踪基准 - 编码用于视觉跟踪的颜色信息（P.Liang，E.Blasch，H.Lin）
瞬态生物特征指甲数据集V01（Igor Barros Barbosa）
中佛罗里达大学 - 人群数据集（Saad Ali）
中佛罗里达大学 - 人群流分段数据集（Saad Ali）
VIPeR：观点不变行人识别 - 在不同照明条件下从任意视角拍摄的632个行人图像对。（格雷，布伦南，陶）
视觉对象跟踪挑战数据集 - VOT数据集是在单目标短期视觉对象跟踪挑战中使用的完全注释的视觉对象跟踪数据集的集合（VOT委员会）
WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，其中13789个图像属于30个场景类别，每个57524个人体边界框分别用14个二进制属性注释（Li，Yining和Huang，Chen，Loy，Chen Change和唐，小ou）

遥感

巴西Cerrado-Savanna场景数据集 - 由巴西Cerrado-Savanna植被分类的RapidEye传感器拍摄的IR-RG场景的组成。（K.Nogueira，JA dos Santos，T.Fornazari，TS Freire，LP Morellato，R.da S. Torres）
巴西咖啡场景数据集 - 由SPOT传感器用于鉴定巴西山区咖啡作物的IR-RG场景的组成（OAB Penatti，K.Nogueira，JA dos Santos。）
从IKONOS（1米）和QuickBird（60厘米）（阿里Ozgun Ok和Caglar Senaras）获取的建筑物检测基准 -14图像
CBERS-2B，Landsat 5 TM，Geoeye，Ikonos-2 MS和ALOS-PALSAR - 使用光学图像的陆地覆盖分类（D。Osaku等人）
Furnas和Tiete - 沉积物产量分类（Pisani等）
ISPRS 2D语义标签 - 在波茨坦（德国波茨坦）市（Franz Rottensteiner，Gunho Sohn，Markus Gerke，Jan D. Wegner）准备了距离为5cm的高度模型和真正的正像，
ISPRS 3D语义标注 - 九级机载激光扫描数据（Franz Rottensteiner，Gunho Sohn，Markus Gerke，Jan D. Wegner）
内陆空中图像标签数据集 - 美国和奥地利城市的9000平方公里的彩色航空影像。（Emmanuel Maggiori，Yuliya Tarabalka，Guillaume Charpiat，Pierre Alliez）
Lampert的谱图分析 - 来自时间序列数据的被动声纳谱图，这些谱图是从水下海洋记录中从螺旋桨和发动机机械辐射的声能的记录产生的。（托马斯·兰珀特）
Linkoping Thermal InfraRed数据集 - LTIR数据集是用于评估短期单对象（STSO）跟踪的热红外数据集（Linkoping大学）
MUUFL Gulfport高光谱和LiDAR数据集 - 在密西西比州南密西根海湾大学校园内共同登记的航空高光谱和激光雷达数据，其中包含几个子像素目标。（P.Gader，A.Zare，R.Light，J.Aitken，G.Touell）
苏黎世夏季数据集旨在用于城市场景的非常高分辨率卫星图像的语义分割，具有不完整的地面实况（Michele Volpi和Vitto Ferrari。）
苏黎世城市微型飞行器数据集 - 苏黎世2公里的时间同步空中高分辨率图像，以及相关的其他数据（Majdik，Till，Scaramuzza

场景分割或分类

巴塞罗那 - 15,150张图片，巴塞罗那的城市景观（Tighe和Lazebnik）
CMU可视化本地化数据集 - 使用装备有IMU，GPS，INS，激光雷达和相机的Navlab 11 收集的数据集（Hernan Badino，Daniel Huber和Takeo Kanade）
COLD（舒适的本地化数据库） - 本地化（Ullah，Pronobis，Caputo，Luo和Jensfelt）
DAVIS：视频对象分割数据集 - 密集注释的VIdeo分割（F. Perazzi，J.Pont-Tuset，B. McWilliams，L.VanGol，M.Gross和A.Sorkine-Hornung）
EDUB-Seg - 用于事件分割的Egocentric数据集（Mariella Dimiccoli，MarcBolaños，Estefania Talavera，Maedeh Aghaei，Stavri G. Nikolov和Petia Radeva。）
十五个场景分类十五个自然场景类别的数据集（Fei-Fei Li和Aude Oliva）
几何背景 - 场景解释图像（Derek Hoiem）
移动机器人本地化的室内地点识别数据集 - 该数据集包含由两个不同机器人（virtualMe和先锋）构建的17个不同的地方（Raghavender Sahdev，John K. Tsotsos）。
室内场景识别 - 67室内类别，15620图像（Quattoni和Torralba）
野外的本质图像（IIW） - 野外的内在图像是一个大型的公共数据集，用于评估室内场景的内在图像分解（Sean Bell，Kavita Bala，Noah Snavely）
LM + SUN - 45,676幅图像，主要是城市或人类相关场景（Tighe和Lazebnik）
可视和红外光谱中的海事影像 - VAIS包含从码头获得的船舶的同时获取的未注册的热和可见图像（Zhang，MM，Choi，J.，Daniilidis，K.，Wolf，MT＆Kanan）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces上，但包括数百万个材料标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
麻省理工学院内在图像 - 20件物品（罗杰格罗斯，米卡·约翰逊，爱德华·阿德尔森和威廉·弗里曼）
NYU V2混合曼哈顿框架数据集 - 我们提供曼哈顿框架（MMF）分割和MF旋转的混合物在全面的NYU深度数据集V2由Silberman等人。（Straub，Julian和Rosman，Guy和Freifeld，Oren和Leonard，John J.和Fisher III，John W.）
OpenSurfaces - OpenSurfaces由数以万计的内部消费者照片分割的曲面示例组成，并用材质参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
场景2场景识别数据库 -365场景类别和800万图像（周，Khosla，Lapedriza，Torralba和Oliva）
场景识别数据库 - 205个场景类别和250万个图像（Zhou，Lapedriza，Xiao，Torralba和Oliva）
RGB-NIR场景数据集 - 在RGB和近红外（NIR）（Brown和Susstrunk）中捕获的9个类别中的477个图像
SUN 2012 - 16,873场景分类完全注释场景图像（Xiao等）
SUN 397 - 397场景分类场景类别（Xiao等）
SUN RGB-D：RGB-D场景了解基准套件 - 10,000 RGB-D图像，146,617 2D多边形和58,657 3D边框（Song，Lichtenberg和Xiao）
SYNTHIA - 大型（约五十万）虚拟世界图像，用于训练自主车辆。（计算机视觉中心的ADAS集团）
筛选流程（也称为LabelMe Outdoor，LMO） - 2688幅图像，主要是户外自然和城市（Tighe和Lazebnik）
斯坦福背景数据集 - 包含至少一个前景物体的户外场景的715幅图像（Gould等人）
表面检测 - 通过颜色空间融合和时间分析的实时可行表面检测 - 评估数据集（Breckon，Toby P.，Katramados，Ioannis）
ViDRILO - ViDRILO是一个数据集，其中包含5个带有注释的RGB-D图像序列，该图像采用移动机器人在两个办公楼内，具有挑战性的照明条件（Miguel Cazorla，J。Martinez-Gomez，M. Cazorla，I. Garcia-Varea和V莫雷尔）

细分（一般）

：阴影检测/纹理分割计算机视觉数据集 - 基于视频的阴影检测/抑制序列，具有实例（Newey，C.，Jones，O.，＆Dee，HM）
Aberystwyth叶评估数据集 - 用手标记植物图像，用手标记一段时间的叶级分割，以及植物牺牲的生物数据。（Bell，Jonathan; Dee，Hannah M.）
Alpert等人分段评估数据库（Sharon Alpert，Meirav Galun，Ronen Basri，Achi Brandt）
BMC（背景模型挑战） - 用于比较背景减法算法的数据集，实际和合成视频（Antoine）
伯克利分割数据集和基准测试（David Martin和Charless Fowlkes）
传播服装的CTU颜色和深度图像数据 - 具有注释角落的散布服装的图像（Wagner，L.，Krejov D.，Smutn V.（捷克技术大学在布拉格））
CTU服装折叠照片数据集 - 衣服折叠各个阶段的色彩和深度图像（Sushkov R.，Melkumov I.，Smutn y V.（捷克技术大学在布拉格））
DeformIt 2.0 - 图像数据增强工具：从单个图像分割对（Brian Booth和Ghassan Hamarneh）模拟具有地面真实分割的新颖图像
GrabCut图像数据库（C.Rother，V.Kolmogorov，A.Blake，M.Brown）
野外的本质图像（IIW） - 野外的内在图像是一个大型的公共数据集，用于评估室内场景的内在图像分解（Sean Bell，Kavita Bala，Noah Snavely）
LabelMe图像数据库和在线注释工具（Bryan Russell，Antonio Torralba，Kevin Murphy，William Freeman）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces上，但包括数百万个材料标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
OpenSurfaces - OpenSurfaces由数以万计的内部消费者照片分割的曲面示例组成，并用材质参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
PetroSurf3D - 26高分辨率（亚毫米精度）岩石艺术的3D扫描与岩画的像素标记进行分割（Poier，Seidl，Zeppelzauer，Reinbacher，Schaich，Bellandi，Marretta，Bischof）
SYNTHIA - 大型（约五十万）虚拟世界图像，用于训练自主车辆。（计算机视觉中心的ADAS集团）
石溪大学阴影数据集（SBU-Shadow5k） - 来自各种场景和照片类型的大型影像检测数据集，以及人体注释（Tomas FY Vicente，Le Hou，Chen-Ping Yu，Minh Hoai，Dimitris Samaras）

同时本地化和映射

姿态估计，视觉测距和SLAM的基于事件的数据数据还包括来自运动捕捉系统的强度图像，惯性测量和地面实况。（ETH）
RAWSEEDS SLAM基准数据集（Rawseeds Project）
TUM RGB-D基准 - 用于评估RGB-D视觉测距和SLAM算法的数据集和基准（BCrgen Sturm，Nikolas Engelhard，Felix Endres，Wolfram Burgard和Daniel Cremers）
视觉测量/ SLAM评估 - 测距基准由22个立体声序列组成（Andreas Geiger和Philip Lenz和Raquel Urtasun）

监视和跟踪

ATOMIC GROUP ACTIONS数据集 - （Ricky J. Sethi等）
AVSS07：基于高级视频和信号的监控2007数据集（Andrea Cavallaro）
活动建模和异常检测数据集 - 数据集包含45分钟视频，带有注释异常（Jagan Varadarajan和Jean-Marc Odobez）
背景减法 - 关于背景减法的数据集列表（Thierry BOUWMANS）
CMUSRD：监控研究数据集 - 用于室内监控场景的多摄像机视频（K.Hattori，H.Hattori等人）
DukeMTMC：杜克多目标多摄像机跟踪数据集 - 8个摄像头，85分钟，2米帧，2000人视频（Ergys Ristani，Francesco Solera，Roger S. Zou，Rita Cucchiara，Carlo Tomasi）
ETISEO视频监控下载数据集（INRIA猎户座等）
HDA +多摄像机监控数据集 - 分布在研究所3层楼的18个异质摄像机网络（不同分辨率和帧速率）的视频，具有13个完全标记的序列，85个人和64028个包围的人。（D.Figueira，M.Taiana，A.Nambiar，J.Nascimento和A.Bernardino）
人类点击数据 - 跟踪目标20K人的点击（包括点击错误）（Zhu和Porikli）
即时数据集 - 此数据集专为估计个人关系而设计。（Xiao Chu et al。）
MAHNOB数据库 - 包括笑声数据库，HCI标签数据库，MHI模拟数据库（M.Pantic等）
MVHAUS-PI - 一种多视角人类交互识别数据集（Saeid et al。）
多光谱可见NIR视频序列 - 注释多光谱视频，可见+ NIR（LE2I，布尔戈尼大学）
Openvisor - 视频监控在线存储库（摩德纳和雷焦艾米利亚大学）
停车场数据集 - 停车场数据集是一个汽车数据集，专注于停车场情况下汽车的中度和重度遮挡（B。李，TF吴和SC Zhu）
色情数据库 - 色情数据库是一个色情检测数据库，包含从色情网站和Youtube中提取的近80个小时的400个色情和400个非色情视频。（Avila，Thome，Cord，Valle，de Araujo）
普林斯顿跟踪基准 - 100个RGBD跟踪数据集（Song and Xiao）
玛丽玛丽多相机分布式交通场景数据集（QMDTS） - QMDTS是从城市监控环境中收集的，用于研究分布式场景中的监控行为（徐旭教授，邵刚教授和Timothy Hospedales博士）
SALSA：协同社会场景分析 - 多模式群体行为分析的新型数据集（Xavier Alameda-Pineda等）
SBMnet（场景背景建模.NET） - 用于测试背景估计算法的数据集（Pierre-Marc Jodoin，Lucia Maddalena和Alfredo Petrosino）
SCOUTER - 视频监控场地实况（转移观点，不同设置/照明条件，主题变化较大）。30个视频和约36,000个手动标记的帧。（Catalin Mitrea）
SJTU-BEST一个监视指定的数据集平台，具有逼真的，使用相机的摄像头，多样化的监控图像和视频（上海交通大学）
SPEVI：监督绩效评估计划（伦敦玛丽皇后大学）
Shinpuhkan 2014 - 一个人重新识别数据集，包含由16台摄像机捕获的24人的22,000张图像。（Yasutomo Kawanishi等）
在极其混乱的场景中进行跟踪 - 这个单个对象跟踪数据集具有28个高度混乱的序列，每帧注释（Jingjing Xiao，Linbo Qiao，Rustam Stolkin，Ale Leonardis）
UCSD异常检测数据集 - 一个稳定的摄像机，安装在海拔高度，俯瞰行人天桥，行人异常或非行人运动。
UCSD轨迹聚类和分析数据集 - （Morris and Trivedi）
USC信息科学研究所的ATOMIC PAIR ACTIONS数据集 - （Ricky J. Sethi等）
Udine基于轨迹的异常事件检测数据集 - 具有异常值的合成轨迹数据集（Udine人工视觉和实时系统实验室）
视觉跟踪器基准 - 100个跟踪跟踪序列，具有可视化跟踪基准评估的地面实况，包括跟踪多个跟踪器的跟踪结果（Wu，Lim，Yang）
WIDER属性数据集 - WIDER属性是一个大规模的人类属性数据集，其中13789个图像属于30个场景类别，每个57524个人体边界框分别用14个二进制属性注释（Li，Yining和Huang，Chen，Loy，Chen Change和唐，小ou）

纹理

Brodatz纹理，规范化Brodatz纹理，彩色Brodatz纹理，Multiband Brodatz纹理 154新图像加上112个具有各种变换的原始图像（A. Safia，D. He）
颜色纹理图像按类别（textures.forrest.cz）
哥伦比亚 - 乌特勒支反射和纹理数据库（哥伦比亚特区和乌得勒支大学）
DynTex：动态纹理数据库（Renaud Piteri，Mark Huiskes和Sandor Fazekas）
野外的本质图像（IIW） - 野外的内在图像是一个大型的公共数据集，用于评估室内场景的内在图像分解（Sean Bell，Kavita Bala，Noah Snavely）
KTH TIPS＆amp; TIPS2纹理 - 姿态/照明/刻度变化（Eric Hayman）
上下文中的材料（MINC） - 上下文数据库中的材料（MINC）建立在OpenSurfaces上，但包括数百万个材料标签的点注释。（Sean Bell，Paul Upchurch，Noah Snavely，Kavita Bala）
OpenSurfaces - OpenSurfaces由数以万计的内部消费者照片分割的曲面示例组成，并用材质参数，纹理信息和上下文信息进行注释。（Kavita Bala等人）
奥卢纹理数据库（奥卢大学）
牛津可描述的纹理数据集 - 5640个图像（M.Cimpoi，S. Maji，I.Kokkinos，S.Mhhamed，A.Vedaldi）
布拉格纹理分割数据生成器和基准测试（Mikes，Haindl）
萨尔斯堡纹理图像数据库（STex） - 奥地利萨尔斯堡附近捕获的大量476色纹理图像。（罗兰·克维特和彼得·梅尔瓦尔德）
纹理数据库纹理数据库具有25个纹理类，每个40个样本（Svetlana Lazebnik，Cordelia Schmid和Jean Ponce）
表面和材料的乌普萨拉纹理数据集 - 织物，谷物等
视觉纹理（MIT Media Lab）

城市数据集

巴塞罗那 - 15,150张图片，巴塞罗那的城市景观（Tighe和Lazebnik）
CMP门面数据库 - 包括606个修正的外墙图像，具有12个建筑类别的地方（Radim Tylecek）
LM + SUN - 45,676幅图像，主要是城市或人类相关场景（Tighe和Lazebnik）
麻省理工学院CBCL StreetScenes挑战框架：（Stan Bileschi）
玛丽玛丽多相机分布式交通场景数据集（QMDTS） - QMDTS是从城市监控环境中收集的，用于研究分布式场景中的监控行为（徐旭教授，邵刚教授和Timothy Hospedales博士）
强大的全球翻译与1DSfM数据数据描述每个数据集的运动问题的全局结构（凯尔威尔逊和挪亚Snavely）
筛选流程（也称为LabelMe Outdoor，LMO） - 2688幅图像，主要是户外自然和城市（Tighe和Lazebnik）
解卷积网络的街景变化检测 - 具有结构，照明，天气和季节变化的街景图像对齐图像对的数据库（Pablo F. Alcantarilla，Simon Stent，德国Ros，Roberto Arroyo和Riccardo Gherardi）
悉尼房屋 - 具有准确3D房屋形状，门面对象标签，密点对应和注释工具箱的街景房屋图像（Hang Chu，Shenlong Wang，Raquel Urtasun，Sanja Fidler）
交通标志数据集 - 记录从瑞典高速公路和城市道路（Fredrik Larsson）350公里以上的序列

其他收藏

4D光场数据集 - 24个具有9x9x512x512x3输入图像的合成场景，深度和视差地面实况，摄像机参数和评估面具。（Katrin Honauer，Ole Johannsen，Daniel Kondermann，Bastian Goldluecke）
AMADI_LontarSet - 巴厘棕榈叶手稿图像二进制数据集，查询字典查找和孤立字符识别巴厘剧本。（AMADI项目等）
注释的Web耳朵数据集（AWE数据集） - 所有图像都是通过从已知人员的互联网上的图像中删除耳朵获得的（Ziga Emersic，Vitomir Struc和Peter Peer）
生物特征评估与测试 - 识别技术的评估，包括生物识别（欧洲计算电子基础设施）
CALVIN研究组数据集 - 眼睛跟踪对象检测，imagenet边界框，同步活动，stickman和身体姿势，youtube对象，脸，马，玩具，视觉属性，形状类（CALVIN ggroup）
CANTATA视频和图像数据库索引站点（Multitel）
香港中文大学数据集 - 面部素描，面部对齐，图像搜索，公众广场观察，闭塞，中心站，麻省理工学院单人和多人相机轨迹，人物重新识别（多媒体实验室）
计算机视觉测试图像数据库（Carnegie Mellon Univ）首页列表
计算机视觉实验室OCR DataBase（CVL OCR DB） - CVL OCR DB是一个公共注释的图像数据集，在自然场景中有120个二进制注释的文本图像。（Andrej Ikica和Peter Peer）
ETHZ各种，包括ETH 3D头部姿势，BIWI视听数据，ETHZ形状类，BIWI步行者，行人，建筑物，4D MRI，个人事件，肝脏超声，食物101（ETH苏黎世，计算机视觉实验室）
一般100数据集 - General-100数据集包含100个bmp格式的图像（无压缩），非常适合超分辨率训练（Dong，Chao和Loy，Chen Change和Tang，Xiaoou）
HKU-IS -4447图像与像素标记的基础，用于突出物体检测（Guanbin Li，Yizhou Yu）
高分辨率3D模型 - 它包括这些数据集的高分辨率渲染。（休伯特等）
I3 - Yahoo Flickr Creative Commons 100M - 此数据集包含照片和视频列表。（B.Thomee，DAShamma，G.Friedland等人）
IDIAP数据集集合 - 26个不同的数据集 - 多模式，攻击，生物特征，草书人物，话语，眼睛凝视，海报，玛雅法典，MOBIO，面部欺骗，游戏，手指静脉，YouTube个性特质（IDIAP团队）
Kinect v2数据集 - 用于评估kinect2深度解码（Felix等）中的展开的数据集
拉瓦尔HDR天空数据库 - 该数据库包含800个半球形，全天空的HDR照片，可用于户外照明分析。（Jean-Francois Lalonde等）
Leibe的人物/车辆/物体数据库（Bastian Leibe）
莲山图像数据库收集与地面真相（Sealeen Ren，Benjamin Yao，Michael Yang）
麻省理工学院收入基准数据集 - 收集（指向23个数据集）（Bylinskii，Judd，Borji，Itti，Durand，Oliva，Torralba}
Michael Firman的RGBD数据集列表
Msspoof：2D多光谱脸部欺骗 - 使用纸张进行NIR和VIS相机（Idiap研究所）的实时数据主体和欺骗性数据对象的演示攻击（欺骗）数据集，
多视觉立体声评估 - 每个数据集通过激光扫描过程获得的“地面真相”3D模型进行注册（Steve Seitz等）
牛津杂项，包括巴菲，鲜花，电视角色，建筑物等（牛津视觉几何集团）
PEIPA图像数据库摘要（试点欧洲图像处理归档）
PalmVein欺骗 - 用纸（Idiap研究机构）执行的来自欺骗性数据主题（对应于VERA Palmvein）的示例的演示攻击（欺骗）数据集
RSBA数据集 - 用于评估滚动快门束调整的顺序（Per-Erik等）
重播攻击：2D脸部欺骗 - 使用来自移动设备到笔记本电脑的纸张，照片和视频执行的真实数据主体和欺骗性数据主题的演示攻击（欺骗）数据集（Idiap研究所）
重播手机：2D脸部欺骗 - 使用来自移动设备的纸张，照片和视频执行的实时数据主体和欺骗性数据主题的演示攻击（欺骗）数据集（Idiap研究所）
合成序列发生器 - 合成序列发生器（G. Hamarneh）
事件相机数据集 - 这是世界上第一个采用基于事件的高速机器人相机数据集合（E.Mueggler，H. Rebecq，G. Gallego，T. Delbruck，D.Scaramuzza）
从猫的角度看世界 - 从自由行为的猫头上录制的视频（Belinda Y.Betsch，Wolfgang Einh？user）
USC注释计算机视觉参考书目数据库出版摘要（Keith Price）
USC-SIPI图像数据库：纹理，空中，收藏（例如Lena）（USC信号和图像处理研究所）
伯尔尼大学伯克利数据库，在线文档，字符串编辑和图形匹配（伯恩大学，计算机视觉和人工智能）
VERA Fingervein欺骗 - 使用纸（Idiap研究所）执行的来自欺骗性数据主题（对应于VERA Fingervein）的样本的演示攻击（欺骗）数据集
VERA Fingervein - 带有数据主体的Fingervein数据集，用开放的fingervein传感器记录（Idiap研究所）
VERA PalmVein：PalmVein - Palmvein数据集，其中记录有开放式掌纹传感器（Idiap研究所）的数据主体
航空图像中的车辆检测 - VEDAI是航空影像中车辆检测的数据集，作为在无约束环境中对自动目标识别算法进行基准测试的工具。（Sebastien Razakarivony和Frederic Jurie）
视频堆叠数据集 - 用于在手机上释放视频堆叠的数据集（Erik Ringaby等）
手腕摄像机视频数据集 - 从腕上摄像头和头戴式摄像机拍摄的日常生活视频活动（Katsunori Ohnishi，Atsushi Kanehira，Asako Kanezaki，Tatsuya Harada）
Yummly-10k数据集 - 目标是了解人类的感知，在这种情况下，食物味道相似。（SE（3）康乃尔科技计算机视觉集团）

杂

3D网格水印基准数据集（Guillaume Lavoue）
4D光场数据集 - 24个具有9x9x512x512x3输入图像的合成场景，深度和视差地面实况，摄像机参数和评估面具。（Katrin Honauer，Ole Johannsen，Daniel Kondermann，Bastian Goldluecke）
用于实际低光图像降噪的数据集 - 它包含由低光照相机噪声和低噪声对应物损坏的像素和强度对齐的图像对。（J.Anaya，A.Barbu）
AMADI_LontarSet - 巴厘棕榈叶手稿图像二进制数据集，查询字典查找和孤立字符识别巴厘剧本。（AMADI项目等）
活动外观模型数据集（Mikkel B. Stegmann）
飞机跟踪（Ajmal Mian）
注释的Web耳朵数据集（AWE数据集） - 所有图像都是通过从已知人员的互联网上的图像中删除耳朵获得的（Ziga Emersic，Vitomir Struc和Peter Peer）
CITIUS视频数据库 - 具有眼睛跟踪数据的72个视频数据库=用于评估动态显眼视觉模型（Xose）
CVSSP 3D数据存储库 - 数据集旨在评估一般的多视图重建算法。（Armin Mustafa，Hansung Kim，Jean-Yves Guillemaut和Adrian Hilton）
加利福尼亚州 - ND - 从个人照片集的701张照片，包括许多具有挑战性的现实生活中不相同的近似重复（Vassilios Vonikakis）
基于剑桥运动的分割和识别数据集（Brostow，Shotton，Fauqueur，Cipolla）
反折射相机校准图像（Yalin Bastanlar）
Chars74K数据集 - 74个英语和卡纳达角色（Teo de Campos - t.decampos@surrey.ac.uk）
硬币图像数据集 - 硬币图像数据集是60类罗马共和国硬币的数据集（Sebastian Zambanini，Klaus Vondrovec）
哥伦比亚相机响应功能：数据库（DoRF）和模型（EMOR）（MD Grossberg和SK Nayar）
哥伦比亚数据库的污染物模式和散射参数（Jinwei Gu，Ravi Ramamoorthi，Peter Belhumeur，Shree Nayar）
犯罪现场鞋印象数据库 - 犯罪现场和参考foorware印象图像（Adam Kortylewski）
D-HAZY - 用于评估定量诊断算法的数据（Cosmin Ancuti et al。）
DR（眼睛）VE - 驾驶员注意力数据集（摩德纳大学和雷焦艾米利亚大学）
DTU控制运动和照明图像数据集（135K图像）（Henrik Aanaes）
视觉眼动数据库（DOVES） - 从29个人类观察者收集到的一组眼动，因为它们观察到101个自然校准图像。（van der Linde，I.，Rajashekar，U.，Bovik，AC等）
DeformIt 2.0 - 图像数据增强工具：从单个图像分割对（Brian Booth和Ghassan Hamarneh）模拟具有地面真实分割的新颖图像
密集的户外通信地面实况数据集，用于光流和局部关键点评估（Christoph Strecha）
EISATS：.enpeda ..图像序列分析测试站点（奥克兰大学多媒体成像组）
无特征对象跟踪 - 此数据集包含几个具有有限纹理的视频序列，用于视觉跟踪，包括手动注释的每帧姿势（Lebeda，Hadfield，Matas，Bowden）
FlickrLogos-32 - 8240图像的32个产品标识（Stefan Romberg）
一般100数据集 - General-100数据集包含100个bmp格式的图像（无压缩），非常适合超分辨率训练（Dong，Chao和Loy，Chen Change和Tang，Xiaoou）
Geometry2view - 此数据集包含用于2视图几何计算的图像对，包括手动注释点坐标（Lebeda，Matas，Chum）
汉诺威区域检测器评估数据集 - 从1.5到800万像素（Kai Cordes）的多个图像分辨率中的特征检测器评估序列
Hillclimb和CubicGlobe数据集 - 一个集会汽车的视频，分为几个独立的镜头（用于视觉跟踪和建模）。（Lebeda，Hadfield，Bowden）
I3 - Yahoo Flickr Creative Commons 100M - 此数据集包含照片和视频列表。（B.Thomee，DAShamma，G.Friedland等人）
IISc - 孤立对象之间的相似性（IISc-DIO） - 数据集在269个人类受试者上使用具有多样化对象的视觉搜索任务进行的26,675次感知异常测量（RT Pramod＆SP Arun，IISc）
INRIA特征检测器评估序列（Krystian Mikolajczyk）
INRIA的PERCEPTION数据库中的图像和视频采集了几台同步和校准的相机（INRIA Rhone-Alpes）
图像/视频质量评估数据库摘要（Stefan Winkler）
用于立体声，光学流和视觉测距的KITTI数据集（Geiger，Lenz，Urtasun）
LFW-10数据集，用于学习相对属性 - 具有10个属性的实例级注释的10,000对面部图像的数据集（CVIT，IIIT Hyderabad。）
来自地面LiDAR扫描的大规模3D点云数据（Andreas Nuechter）
光场材料数据集 - 使用Lytro ILLUM摄像机拍摄的12种物质类别的1.2k注释图像（王廷俊，朱俊仁，Ebi Hiroaki，Manmohan Chandraker，Alexei Efros，Ravi Ramamoorthi）
Linkoping滚动快门整流数据集（Per-Erik Forssen和Erik Ringaby）
LIRIS-ACCEDE数据集 - 具有沿着情感维度（Technicolor）注释的大内容多样性的视频摘录集合
MARIS波托菲诺数据集 - 水下立体图像的数据集，描绘圆柱形管道物体并收集以测试物体检测和姿态估计算法。（帕尔马大学RIMLab（机器人与智能机器实验室））
MPI Sintel流量数据集来自开源3D动画短片Sintel的光流评估数据集。它已被扩展为立体声和差距，深度和相机运动，以及细分。（马克斯·普朗克·图宾根）
MPI-Sintel光流评估数据集（Michael Black）
MSR-VTT - 视频到200K +视频剪辑/句子对的文本数据库
米德尔伯勒大学立体视觉研究数据集（丹尼尔·沙尔斯坦和理查德·西策斯基）
2D椭圆形图案的建模 - 他的数据集包含标准和家庭数据集中的4,526个2D形状（Costas Panagiotakis和Antonis Argyros）
Multi-FoV - 逼真逼真的视频序列，可以将相机的视场（FoV）对各种视觉任务的影响进行基准测试。（Zhang，Rebecq，Forster，Scaramuzza）
多视觉立体声评估 - 每个数据集通过激光扫描过程获得的“地面真相”3D模型进行注册（Steve Seitz等）
具有激光基础的多视点立体图像（ESAT-PSI / VISICS，FGAN-FOM，EPFL / IC / ISIM / CVLab）
NCI癌症图像存档 - 前列腺图像（国家癌症研究所）
NIST 3D兴趣点检测（Helin Dutagaci，Afzal Godil）
NRCS自然资源/农业形象数据库（USDA自然资源保护局）
对象去除 - 使用合成光流的密集立体视觉场景映射的广义动态对象去除 - 评估数据集（Hamilton，OK，Breckon，Toby P.）
闭塞检测测试数据（Andrew Stein）
OSIE - 对象和语义图像和眼睛跟踪 - 700图像，5551分割对象，眼睛跟踪数据（徐，江，王，Kankanhalli，赵）
OTIS：打开湍流图像集 - 通过湍流气氛进行长距离成像的几个序列（静态或动态）（Jerome Gilles，Nicholas B. Ferrante）
PHOS（照明不变数据集） - 在不同照明条件下拍摄的15个场景* 15张图像（Vassilios Vonikakis）
PRINTART：着名绘画作品的艺术形象，包括细节注释。ECCV发布了使用此数据库进行自动注释和检索任务的基准。（Nuno Miguel Pinho da Silva）
Pics’n’Trails - 连续存档的GPS和数码照片的数据集（Gamhewage Chaminda de Silva）
RAWSEEDS SLAM基准数据集（Rawseeds Project）
ROMA（ROAD MArkings）：用于道路标记提取算法评估的图像数据库（Jean-Philippe Tarel，et al）
机器人3D扫描存储库 - 来自机器人实验的3D点云（Osnabruck和Jacobs大学）
滚动快门整流数据集 - 从手持装置整理卷帘快门视频（Per-Erik等）
SALICON - 上下文眼睛跟踪数据集中的显着性c。80个图像类中有1000个具有眼睛跟踪数据的图像（Jiang，Huang，Duan，Zhao）
SIDIRE：用于照明稳健性评估的合成图像数据集 - SIDIRE是一个免费提供的图像数据集，提供综合生成的图像，可以调查照明变化对物体外观的影响（Sebastian Zambanini）
Scripps浮游生物相机系统 - 数千张图像。50类浮游生物和其他小型海洋物体（Jaffe等人）
石溪大学实境杂波数据集（SBU-RwC90） - 人类排名不同等级的图像（陈平平，Dimitris Samaras，Gregory Zelinsky）
解卷积网络的街景变化检测 - 具有结构，照明，天气和季节变化的街景图像对齐图像对的数据库（Pablo F. Alcantarilla，Simon Stent，德国Ros，Roberto Arroyo和Riccardo Gherardi）
悉尼房屋 - 具有准确3D房屋形状，门面对象标签，密点对应和注释工具箱的街景房屋图像（Hang Chu，Shenlong Wang，Raquel Urtasun，Sanja Fidler）
Technicolor有趣的数据集 - 电影摘录和关键帧的集合，以及基于分类成有趣和非有趣的样本（Technicolor）的相应的地面实况文件。
Technicolor Hannah数据集 - 从“Hannah和她的姐妹”电影153,525帧，为几种类型的音频和视觉信息（Technicolor）注释，
Technicolor HR-EEG4EMO数据集 - 在观看中性和情感视频（Technicolor）期间收集的40个受试者的脑电图和其他生理记录
Technicolor VSD暴力场景数据集 - 基于提取电影中暴力事件的地面实况文件的集合（Technicolor）
TGIF - 来自Tumblr和120K自然语言描述的动画GIF（Li，Song，Cao，Tetreault，Goldberg，Jaimes，Luo）
TMAGIC数据集 - 视觉跟踪的几个视频序列，包含强大的飞机外旋转（Lebeda，Hadfield，Bowden）
TUM RGB-D基准 - 用于评估RGB-D视觉测距和SLAM算法的数据集和基准（BCrgen Sturm，Nikolas Engelhard，Felix Endres，Wolfram Burgard和Daniel Cremers）
冲突升级决议（CONFER）数据库 - 来自电视政治辩论的自然主义互动的120个视听剧集（〜142分钟），在实际冲突强度方面逐帧加注。（Christos Georgakis，Yannis Panagakis，Stefanos Zafeiriou，Maja Pantic）
开放视频项目（Gary Marchionini，Barbara M. Wildemuth，Gary Geisler，Yaxiao Song）
图卢兹消失点数据集 - 用于消失点估计的曼哈顿场景数据集，还为每个图像提供了相机方向的IMU数据（Vincent Angladon和Simone Gasparini）
UCL地面真相光流数据集（Oisin Mac Aodha）
热那亚大学差异和光流评估数据集（Manuela Chessa）
神经网络系统的验证与验证（Francesco Vivarelli）
非常长的基线干涉图像重建数据集（MIT CSAIL）
虚拟KITTI - 从五个不同的虚拟世界生成的 40个高分辨率视频（17,008帧），用于：对象检测和多对象跟踪，场景级和实例级语义分割，光流和深度估计（Gaidon，Wang， Cabon，Vig）
视觉对象跟踪挑战 - 这个挑战每年作为ICCV / ECCV研讨会举行，每年都有一个新的数据集和更新的评估套件（Kristan等人）
世界卫生组织 - 浮游生物 - 350万个显微镜海洋浮游生物的图像（奥尔森，索西克）
WILD：天气和虚拟数据库（S. Narasimhan，C. Wang。S. Nayar，D. Stolyarov，K. Garg，Y. Schechner，H. Peri）
YACCLAB数据集 - YACCLAB数据集包括合成和实际二进制图像（Grana，Costantino; Bolelli，Federico; Baraldi，Lorenzo; Vezzani，Roberto）
YtLongTrack - 此数据集包含两个视频序列，具有质量低，极限长度和完全遮挡等挑战，包括手动注释的每帧姿势（Lebeda，Hadfield，Matas，Bowden）