一. ImageNet Large Scale Visual Recognition Competition (ILSVRC)
Imagenet数据集是目前深度学习图像领域应用得非常多的一个数据集,关于图像分类、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集有1400多万幅图片,涵盖2万多个类别;其中有超过百万的图片有明确的类别标注和图像中物体位置的标注。Imagenet数据集文档详细,有专门的团队维护,使用非常方便,在计算机视觉领域研究论文中应用非常广,几乎成为了目前深度学习图像领域算法性能检验的“标准”数据集。
与Imagenet数据集对应的有一个享誉全球的“ImageNet国际计算机视觉挑战赛(ILSVRC)”,目前包含的比赛项目有:
1.目标定位(Object localization)
给定一幅图像,算法需要生成5个带有置信度的类别标签及其分别对应的目标物边框信息。算法准确率的评估是基于与标注的类别标签最匹配的预测标签图片中可能存在多个物体及其对应的标注信息和与标注的边框信息重叠的预测边框图片中可能存在多个同类物体。为什么这样做呢?因为这样就允许算法识别图像中的多个目标物,并且当其中一个目标物确实存在于图像中但没有被标注出来时算法不会受到惩罚。可能说的有不清楚或不正确的地方,大家可以看下官方的评估规则。
2.目标检测(Object detection)
给定一幅图像,算法需要生成多组
(ci,si,bi)
形式的预测信息,其中
ci
为类别标签、
si
为置信度、
bi
为边框信息。需要注意的是,算法必须检测出图像中出现的每一个训练过的目标物,漏检和重复检测都会受到惩罚。
3.视频序列的目标检测(Object detection from video)
这一项和上一项目标检测类似。
4.场景分类(Scene classification)
这个比赛使用了Places2 dataset,比赛规则是对于给定图像,允许算法产生5个场景分类,并挑选匹配度最高的作为评估结果,详看他们的评估规则吧。为什么这么做呢?因为同一幅图片可以包含有多个场景类别,事实上同一幅图片本来就是用多个类别标注的。
5.场景分析(Scene parsing)
这个比赛的目标是将图像分割成与语义类别相关联的不同图像区域,如天空,道路,人和床。具体规则见官网吧。
二.COCO common objects Dataset
COCO数据集由微软赞助,其对于图像的标注信息不仅有类别、位置信息,还有对图像的语义文本描述,COCO数据集的开源使得近两三年来图像分割语义理解取得了巨大的进展,也几乎成为了图像语义理解算法性能评价的“标准”数据集。Google的开源show and tell生成模型就是在此数据集上测试的。
目前包含的比赛项目有:
1.目标检测(COCO Detection Challenge),包含两项比赛:
- 输出目标物的边框即可(using bounding box output),也就是我们常说的目标检测(object detection)了
- 要求把目标物从图像中分割出来(object segmentation output),即我们所说的图像语义分割(Semantic image segmentation)
2.图像标注(COCO Captioning Challenge)
具体说来就是一句话准确描述图片上的信息(producing image captions that are informative and accurate)。那这个怎么评分呢?目前是靠人工评分。
3.人体关键点检测(COCO Keypoint Challenge)
比赛要求是找到人在哪,然后定位到人体的一些关键点位置(The keypoint challenge involves simultaneously detecting people and localizing their keypoints)。
三.Pascal VOC
PASCAL VOC挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。PASCAL VOC图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。PASCAL VOC挑战赛在2012年后便不再举办,但其数据集图像质量好,标注完备,非常适合用来测试算法性能。
四.CIFAR
CIFAR-10包含10个类别,50,000个训练图像,彩色图像大小:32x32,10,000个测试图像。CIFAR-100与CIFAR-10类似,包含100个类,每类有600张图片,其中500张用于训练,100张用于测试;这100个类分组成20个超类。图像类别均有明确标注。CIFAR对于图像分类算法测试来说是一个非常不错的中小规模数据集。
五.THE MNIST DATABASE of handwritten digits
深度学习领域的“Hello World!”!MNIST是一个手写数字数据集,它有60000个训练样本集和10000个测试样本集,每个样本图像的宽高为28*28。需要注意的是,此数据集是以二进制存储的,不能直接以图像格式查看。
最早的深度卷积网络LeNet便是针对此数据集的,当前主流深度学习框架几乎无一例外将MNIST数据集的处理作为介绍及入门第一教程。
六.KITTI
KITTI由德国卡尔斯鲁厄理工学院(Karlsruhe Institute of Technology)和丰田芝加哥技术研究院(Toyota Technological Institute at Chicago)于2012年联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。用于评测3D 目标(机动车、非机动车、行人等)检测、3D 目标跟踪、道路分割等计算机视觉技术在车载环境下的性能。KITTI包含市区、乡村和高速公路等场景采集的真实图像数据,每张图像中多达15辆车和30个行人,还有各种程度的遮挡。
七.Cityscapes
Cityscapes也是自动驾驶相关方面的数据集,重点关注于像素级的场景分割和实例标注。
参考资料:
深度学习视觉领域常用数据集汇总
八.人脸识别数据集LFW(Labeled Faces in the Wild)
在这个数据集上,基于深度学习的系统DeepID2可以达到99.47%的识别率。