数据集是训练AI模型的基石,特别是在大模型时代,越来越大的神经网络参数需要海量的优秀数据投喂、打磨,本文收集整理了计算机视觉领域比较知名和经典的7个公开数据集,包括Caltech101、ImageNet、CIFAR-10、PASCAL VOC、MS COCO、LVIS、Open Image,它们适用于图片分类、目标检测、实例分割等CV领域经典任务的模型训练和效果评估。
1.Caltech101
由加州理工学院的研究团队发布于2004年,历史悠久,鼻祖级的图片分类数据集。包含101个不同的物体类别,每个类别40~800张图片,大部分类别只有50张左右,总共9000张,未划分训练集测试集。图片分辨率主要集中在300x200左右。它是早期计算机视觉研究中的重要基准数据集之一,后续还推出了更大规模的Caltech 256(256类物体,2007年发布)。由于该数据集年代久远,已不适用于最新模型的训练,目前在工程实践中较少使用。
官网:Caltech 101
相关论文:《One-Shot Learning of Object Categories》
2.ImageNet
由普林斯顿大学和斯坦福大学的研究团队构建,最初发布于2009年,并在2010年启动了ImageNet大规模视觉识别挑战赛(ILSVRC,ImageNet Large Scale Visual Recognition Challenge)。它是规模最大的公开数据集,也是分类任务效果评估的公认基准数据集,在各种SOTA模型排行榜上,通常使用ImageNet Top1 Accuracy来对比性能。它也是各种开源模型库常用的预训练数据集,例如著名的timm库(python-image-models),其提供的预训练模型全部在ImageNet或子集上预训练和微调。
ImageNet有1400万张标注的图片,2万多个类别,每个类别包含500-1000张样本图片,这些类别名称来自WordNet,以语义树的形式组织。数据集中的图片通过搜索引擎从互联网收集,通过亚马逊的众包平台AMT(Amazon Mechanical Turk)人工标注。约80%的图像短边在 200–500像素 之间。
在子集ILSVRC中,训练集包含1000个类别,120万张图片,验证集包含5万张图片,测试集包含10万张图片。
相关论文:《ImageNet: A Large-Scale Hierarchical Image Database》
《ImageNet Large Scale Visual Recognition Challenge》
3.CIFAR-10
由加拿大高级研究院(CIFAR, Canadian Institute for Advanced Research)支持,由多伦多大学的研究团体发布,是一个800万小分辨率图片数据集的子集,发布于2009年。CIFAR-10的样本图片分辨率为32x32,包含10个类别,每个类别6000张图片,总共6万张,其中训练集5万张(每类别5000张),测试机1万张(每类1000张)。
该数据集侧重于评估视觉模型在低分辨率图片上的效果,图片搜集自Ask, Flickr, Cydral, Google, Picsearch和Webshots等搜索引擎和图片社区。还有一个更大规模的CIFAR-100数据集,类别增加到了100类,其它和CIFAR-10一致。
官网:CIFAR-10 and CIFAR-100 datasets
相关论文:《80 million tiny images: a large dataset for non-parametric object and scene recognition》
《Learning Multiple Layers of Features from Tiny Images》
4.PASCAL VOC
它是Pattern Analysis, Statistical Modelling and Computational Learning Visual Object Classes的缩写,是目标检测、语义分隔任务领域一个经典的数据集,原始用途是Pascal VOC挑战赛,从2005年至2012年每年举办一次,期间持续更新PASCAL VOC数据集,最终版本(2012)包含20个类别标签,共11530张图片(训练和验证集),27450个标注的物体实例(边界框),6929张图像提供像素级分隔标注。其测试集的真实标签不公开,需提交结果到官方服务器进行评估。PASCAL VOC挑战赛的主办方来自利兹大学、苏黎世联邦理工学院、爱丁堡大学、微软剑桥研究院、牛津大学等研究机构。从2007年开始,VOC中的图片都来自Flickr。
官网:The PASCAL Visual Object Classes Homepage
相关论文:《The PASCAL Visual Object Classes (VOC) Challenge》
《The PASCAL Visual Object Classes Challenge: A Retrospective》
5.MS COCO
COCO是Common Objects in Context的缩写,由微软研究院于2014年发布,参与学者来自康奈尔大学、芝加哥丰田技术学院、Facebook AI研究实验室、微软研究院、布朗大学、加州理工学院等多家机构和大学,包含32.8万张图像和250万个标注实例,涵盖80类常见物体,其标注信息包括边界框、实例分割、关键点检测、图像标题(Captions,每图5条人工编写的描述),目前官网的最新版本是2017,训练集11.8万张图片,验证集5万张,测试集4.1万张,未标注图片12.3万张。
该数据集旨在推动复杂场景下的目标识别与理解研究,故在收集图片时刻意避开了标志性的图片(iconic image),例如对于“狗”这个类别,标志性图片是一张狗狗的清晰大图,背景虚化或纯色的草地,而繁华街道人群中出现的一只狗狗,则是“狗”的非标志性图片。数据集的图片搜集自Flickr,标注过程与ImageNet类似,通过AMT平台众包,基于一套投票机制完成。
官网:COCO - Common Objects in Context
相关论文:《Microsoft COCO: Common Objects in Context》
6.LVIS
LVS是Large Vocabulary Instance Segmentation的缩写,专注于大规模实例分割任务的数据集,由Facebook AI Research于2019年发布,和以往的类似数据集如COCO相比,LVIS图片规模超大,类别超多,实例数量成长尾分布,适合低样本学习检测(Low-shot Detection)和开放词汇检测(Open-Vocabulary Detection)模型的训练和评估。
目前官网供下载的是v1.0,训练集包含10万张图片,127万实例标注;验证集1.98万张图片,24.4万实例标注;测试集1.98万张图片,未公开标注信息。LVIS的图片全部来自COCO 2017数据集,训练集、验证集、测试集的划分也相同。
官网:LVIS
相关论文:《LVIS: A Dataset for Large Vocabulary Instance Segmentation》
7.Open Images
Open Images是一个超大规模的通用图像数据集,其设计定位与ImageNet很相似,支持图像分类、目标检测、实例分割等多种任务,由Google Research主导,联合多家学术机构于2016年发布,持续更新至V7版本(2021年)。
数据集包括900万张图片,图片级类别源自谷歌内部的JFT数据集,约1.9万个类别标签,覆盖了非常宽泛的概念,包括粗颗粒度对象类别(例如“动物”),细颗粒度对象类别(例如“彭布罗克威尔士柯基犬”),场景类别(例如“日落”和“爱”),事件(例如“生日”),材料和属性(例如“羽毛”和“红色”)。
标注信息还包括1600万边界框(目标检测任务,覆盖600个类别),280万实例掩码(实例分割任务),40万视觉关系三元组(场景理解任务,如“人骑自行车”)。数据集的标注通过模型自动识别+人工确认的流程完成。
数据集中的图片收集自Flickr,数据集只记录了图片链接,并为每张图片分配了唯一的ID。谷歌云存储提供了图片的转存下载服务(需要付费),全部图片有18TB。