图像相关数据集

最新推荐文章于 2024-08-08 23:54:14 发布

BlackEyes_SY

最新推荐文章于 2024-08-08 23:54:14 发布

阅读量1.4k

点赞数 1

分类专栏：深度学习文章标签： ILSVRC ImageNet CIFAR PASCAL VOC

本文链接：https://blog.csdn.net/u011204487/article/details/105066375

版权

深度学习专栏收录该内容

39 篇文章 1 订阅

订阅专栏

文章目录

PASCAL VOC
CIFAR-10
CIFAR-100
ImageNet
LFW人脸

PASCAL VOC

PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集，从2005年到2012年每年都会举行一场图像识别challenge。该挑战的主要目的是识别真实场景中一些类别的物体。在该挑战中，这是一个监督学习的问题，训练集以带标签的图片的形式给出。这些物体包括20类：
Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

该挑战主要包括三类任务：分类（classification），检测（detection），和分割（segmentation）所有的标注图片都有Detection需要的label，但只有部分数据有Segmentation Label。

VOC2007中包含9963张标注过的图片，由train/val/test三部分组成，共标注出24,640个物体。VOC2007的test数据label已经公布，之后的没有公布（只有图片，没有label）。对于检测任务，VOC2012的trainval/test包含08-11年的所有对应图片。trainval有11540张图片共27450个物体。对于分割任务， VOC2012的trainval包含07-11年的所有对应图片， test只包含08-11。trainval有 2913张图片共6929个物体。

图片的像素尺寸大小不一，但是横向图的尺寸大约在500375左右，纵向图的尺寸大约在375500左右，基本不会偏差超过100。（在之后的训练中，第一步就是将这些图片都resize到300300或是500500，所有原始图片不能离这个标准过远。）

CIFAR-10

CIFAR-10 是由 Hinton 的学生 Alex Krizhevsky 和 Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。一共包含 10 个类别的 RGB 彩色图片：飞机（ a叩lane ）、汽车（ automobile ）、鸟类（ bird ）、猫（ cat ）、鹿（ deer ）、狗（ dog ）、蛙类（ frog ）、马（ horse ）、船（ ship ）和卡车（ truck ）。图片的尺寸为 32×32 ，数据集中一共有 50000 张训练圄片和 10000 张测试图片。
与 MNIST 数据集中目比， CIFAR-10 具有以下不同点：
• CIFAR-10 是 3 通道的彩色 RGB 图像，而 MNIST 是灰度图像。
• CIFAR-10 的图片尺寸为 32×32，而 MNIST 的图片尺寸为 28×28，比 MNIST 稍大。
• 相比于手写字符， CIFAR-10 含有的是现实世界中真实的物体，不仅噪声很大，而且物体的比例、特征都不尽相同，这为识别带来很大困难。

CIFAR-100

这个数据集就像CIFAR-10，除了它有100个类，每个类包含600个图像。，每类各有500个训练图像和100个测试图像。CIFAR-100中的100个类被分成20个超类。每个图像都带有一个“精细”标签（它所属的类）和一个“粗糙”标签（它所属的超类）以下是CIFAR-100中的部分类别列表：

超类	类别
水生哺乳动物	海狸，海豚，水獭，海豹，鲸鱼
鱼	水族馆的鱼，比目鱼，射线，鲨鱼，鳟鱼
花卉	兰花，罂粟花，玫瑰，向日葵，郁金香
食品容器	瓶子，碗，罐子，杯子，盘子
水果和蔬菜	苹果，蘑菇，橘子，梨，甜椒
家用电器	时钟，电脑键盘，台灯，电话机，电视机

ImageNet

ImageNet
是一个超过15 million的图像数据集，大约有22,000类。
ILSVRC
是一个比赛，全称是ImageNet Large-Scale Visual Recognition Challenge，平常说的ImageNet比赛指的是这个比赛。使用的数据集是ImageNet数据集的一个子集，一般说的ImageNet（数据集）实际上指的是ImageNet的这个子集，总共有1000类，每类大约有1000张图像。具体地，有大约1.2 million的训练集，5万验证集，15万测试集。ILSVRC从2010年开始举办，到2017年是最后一届。ILSVRC-2012的数据集被用在2012-2014年的挑战赛中（VGG论文中提到）。ILSVRC-2010是唯一提供了test set的一年。12-15年期间在ImageNet比赛上提出了一些经典网络，比如AlexNet，ZFNet，OverFeat，VGG，Inception，ResNet。

LFW人脸

无约束自然场景人脸识别数据集，该数据集由13000多张全世界知名人士互联网自然场景不同朝向、表情和光照环境人脸图片组成，共有5000多人，其中有1680人有2张或2张以上人脸图片。每张人脸图片都有其唯一的姓名ID和序号加以区分。
下载地址：http://vis-www.cs.umass.edu/lfw/lfw.tgz
每个文件夹代表着一个人的名字，在每个人的文件夹下是这个人的人脸图像。
在这里插入图片描述

参考：
Pascal VOC ：
https://blog.csdn.net/zw__chen/article/details/82856231
ImageNet
https://www.cnblogs.com/liaohuiqiang/p/9609162.html