ciaodvd数据集的简单介绍_图像分类和检测 – 常用的数据集介绍(从简单到复杂)...

MNIST

MNIST是一个手写数字的数据集,包含一组60,000张图片的训练集和一个包含10,000张图片的测试集,图片一共有10类,分别对应阿拉伯数字0-9。

在原始的MNIST数据集中,每张图片由28*28的矩阵表示,每个像素的取值范围在0~1之间。一般将它转成784维的向量作为输入。

35f42ead930dcfbaa2392c0c1f301d06.png

CIFAR-10

CIFAR-10是由Hiton的学生整理的一个用于识别普适物体的小型数据集.它一共包含10个类别的RGB彩色图片:飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车。

CIFAR-10数据集图片大小为32*32;数据集中一共有50000张训练图片和10000张测试图片。

CIFAR-10默认并没有图片文件,而是保存成了pickle的格式,官网给出的读取方法如下:

def unpickle(file):

import pickle

with open(file, 'rb') as fo:

dict = pickle.load(fo, encoding='bytes')

return dict

1

2

3

4

5

6

defunpickle(file):

importpickle

withopen(file,'rb')asfo:

dict=pickle.load(fo,encoding='bytes')

returndict

读取出来的结果是一个字典。包含"data"、"labels"键值,其中"data"是一个10000×3072的numpy数组,每一行都是一幅32×32的图像。"labels"是10000个0-9之间的标签。

bb84ced9e5c6b44493c8cb2ee3bad135.png

Pascal VOC数据集

VOC是一个非常流行的数据集,用于构建和评估图像分类、对象检测和分割的算法。

Pascal VOC challenge 的目标就是从存在于现实场景中的许多可视对象类别中识别出对象(即不预先分割的对象)。共有20个类别:

Person: person

Animal: bird, cat, cow, dog, horse, sheep

Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train

Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor

在程序里的voc.names一般是这样的(按字母顺序)

0 aeroplane

1 bicycle

2 bird

3 boat

4 bottle

5 bus

6 car

7 cat

8 chair

9 cow

10 diningtable

11 dog

12 horse

13 motorbike

14 person

15 pottedplant

16 sheep

17 sofa

18 train

19 tvmonitor

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

0aeroplane

1bicycle

2bird

3boat

4bottle

5bus

6car

7cat

8chair

9cow

10diningtable

11dog

12horse

13motorbike

14person

15pottedplant

16sheep

17sofa

18train

19tvmonitor

7a78cf446c78f110090c509e9bc23868.png

VOC数据格式

一个最小的仅支持检测的VOC数据集格式如下:

.

└── VOCdevkit #根目录

└── VOC2012 #不同年份的数据集,这里只下载了2012的,还有2007等其它年份的

├── Annotations # 存放xml文件,与JPEGImages中的图片一一对应,解释图片的内容等等

│ ├── 00001.xml

│ └── 00002.xml

├── ImageSets

│ └── Main

│ ├── train.txt # txt文件中每一行包含一个图片的名称

│ └── val.txt

└── JPEGImages # 存放源图片

├── 00001.jpg

└── 00002.jpg

1

2

3

4

5

6

7

8

9

10

11

12

13

14

.

└──VOCdevkit#根目录

└──VOC2012#不同年份的数据集,这里只下载了2012的,还有2007等其它年份的

├──Annotations# 存放xml文件,与JPEGImages中的图片一一对应,解释图片的内容等等

│├──00001.xml

│└──00002.xml

├──ImageSets

│└──Main

│├──train.txt# txt文件中每一行包含一个图片的名称

│└──val.txt

└──JPEGImages# 存放源图片

├──00001.jpg

└──00002.jpg

其中Annotations存放边界框的标注信息,采用的是与图像文件名对应的xml格式;ImageSets里用txt格式划分了训练集和测试集的图像文件名;JPEGImages是训练集和测试集的所有图像。

COCO

Microsoft COCO数据集是微软团队获取的一个可以用来图像recognition(画方框)+segmentation(涂颜色)+captioning(看图说话) 数据集

该数据集主要有的特点如下:

对象分割

可在上下文(背景)中识别

每张图片有多个物体

30万张图片

200万个对象实例

80个对象种类(远远多于pascal voc的20个)

每张图片有5个字幕

有关键点的10万人

class_name = [

'__background__', 'person', 'bicycle', 'car', 'motorcycle', 'airplane',

'bus', 'train', 'truck', 'boat', 'traffic light', 'fire hydrant',

'stop sign', 'parking meter', 'bench', 'bird', 'cat', 'dog', 'horse',

'sheep', 'cow', 'elephant', 'bear', 'zebra', 'giraffe', 'backpack',

'umbrella', 'handbag', 'tie', 'suitcase', 'frisbee', 'skis',

'snowboard', 'sports ball', 'kite', 'baseball bat', 'baseball glove',

'skateboard', 'surfboard', 'tennis racket', 'bottle', 'wine glass',

'cup', 'fork', 'knife', 'spoon', 'bowl', 'banana', 'apple', 'sandwich',

'orange', 'broccoli', 'carrot', 'hot dog', 'pizza', 'donut', 'cake',

'chair', 'couch', 'potted plant', 'bed', 'dining table', 'toilet', 'tv',

'laptop', 'mouse', 'remote', 'keyboard', 'cell phone', 'microwave',

'oven', 'toaster', 'sink', 'refrigerator', 'book', 'clock', 'vase',

'scissors', 'teddy bear', 'hair drier', 'toothbrush'

]

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

class_name=[

'__background__','person','bicycle','car','motorcycle','airplane',

'bus','train','truck','boat','traffic light','fire hydrant',

'stop sign','parking meter','bench','bird','cat','dog','horse',

'sheep','cow','elephant','bear','zebra','giraffe','backpack',

'umbrella','handbag','tie','suitcase','frisbee','skis',

'snowboard','sports ball','kite','baseball bat','baseball glove',

'skateboard','surfboard','tennis racket','bottle','wine glass',

'cup','fork','knife','spoon','bowl','banana','apple','sandwich',

'orange','broccoli','carrot','hot dog','pizza','donut','cake',

'chair','couch','potted plant','bed','dining table','toilet','tv',

'laptop','mouse','remote','keyboard','cell phone','microwave',

'oven','toaster','sink','refrigerator','book','clock','vase',

'scissors','teddy bear','hair drier','toothbrush'

]

0ed4900807b5265f5b1268ee10ea07c9.png

ImageNet

ImageNet 数据集最初由斯坦福大学李飞飞等人在 CVPR 2009 的一篇论文中推出,并被用于替代 PASCAL 数据集(后者在数据规模和多样性上都不如 ImageNet)和 LabelMe 数据集(在标准化上不如 ImageNet)。

ImageNet是根据WordNet层次结构组织的图像数据集。WordNet包含大约10万个单词,ImageNet平均提供了大约1000个图像来说明每个单词。

总图像是大约是150万,每个都有多个边界框和相应的类标签。

从2010年起,ImageNet每年都会举办一场ImageNet大规模视觉识别竞赛。比赛中使用的数据集为ImageNet1k,也就是1000类的分类问题。在竞赛总表现突出的几个模型有AlexNet、VGGNet、GoogLeNet和ResNet。

e1142bf3a9739367b2a6ef8ab4bb0e49.png

参考链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值