整理下零碎的知识点,方便以后查阅。大部分内容整理自《Tensorflow实战Google深度学习框架》
数据集介绍
1. MNIST是NIST数据集的一个子集,6万张训练数据,1万张测试数据,每一张代表了0~9的数字,图片大小28*28,其来自美国国家标准与技术研究所。http://yann.lecun.com/exdb/mnist/。
2. Cifar-10和Cifar-100是图像词典项目中800万张图片的一个子集。他们由Alex Krizhevsky,Vinod Nair和Geoffrey Hinton收集。Cifar-10由10个类60000张32*32大小图片组成;其中5万张训练样本,1万张测试样本http://www.cs.toronto.edu/~kriz/cifar.html。
3. Cifar-100有100个类,每个类别600张图片,500张训练图,100张测试图。
4. ImageNet是一个基于WordNet的大型图像数据库,有近1500万张图片,李飞飞团队从2007年开始,耗费大量人力开始,在CVRP-2009的一篇论文中提到,《ImageNet: A Large-Scale Hierarchical Image Database》。目前ImageNet中总共有14197122幅图像,总共分为21841个类别(synsets)。ILSVRC比赛会每年从ImageNet数据集中抽出部分样本,以2012年为例,比赛的训练集包含1281167张图片,验证集包含50000张图片,测试集为100000张图片。不是from scratch train一个网络用到了ImageNet全部1千多万的数据,ISLVRC 2012(ImageNet Large Scale Visual Recognition Challenge)比赛用的子数据集。因为训练集有128万多,所以常见的训练setting有256 batch size, 5000 iters/epoch,ImageNet 数据集最初由斯坦福大学李飞飞等人在 CVPR 2009 的一篇论文中推出,并被用于替代 PASCAL 数据集(后者在数据规模和多样性上都不如 ImageNet)和 LabelMe 数据集(在标准化上不如 ImageNet)。
5. 2017年11月前后,谷歌的AutoML项目发展出新的神经网络拓扑结构,创建了NASNet,这是一个针对ImageNet和COCO优化的系统。 据Google称,NASNet的性能超过了以前发布的所有ImageNet性能。
6. 微软发布的 COCO 数据库是一个大型图像数据集, 专为对象检测、分割、人体关键点检测、语义分割和字幕生成而设计。COCO的 全称是Common Objects in COntext。ImageNet与Pascal VOC数据集主要关注图像分类、对象检测与图像语义分割,而COCO主要关注图像场景与实例分割https://cloud.tencent.com/developer/article/1491614,但是每个分类的实例对象比ImageNet多,COCO有91个分类,其中82个分类每个都超过5000个实例对象,这些有助于更好的学习每个对象的位置信息,在每个类别的对象数目上也是远远超过PASCAL VOC数据集。图像包括91类目标,328,000影像和2,500,000个label。目前为止有语义分割的最大数据集,提供的类别有80 类,有超过33 万张图片,其中20 万张有标注,整个数据集中个体的数目超过150 万个。
7. PASCAL VOC为图像识别和分类提供了一整套标准化的优秀的数据集,从2005年到2012年每年都会举行一场图像识别challenge该挑战主要包括三类任务:分类(classification),检测(detection),和分割(segmentation) 所有的标注图片都有Detection需要的label, 但只有部分数据有Segmentation Label。PASCAL VOC 2007 和 2012 数据集总共分 4 个大类:vehicle、household、animal、person,总共 20 个小类(加背景 21 类),
Person: person
Animal: bird, cat, cow, dog, horse, sheep
Vehicle: aeroplane, bicycle, boat, bus, car, motorbike, train
Indoor: bottle, chair, dining table, potted plant, sofa, tv/monitor
PASCAL:pattern analysis, statistical modelling and computational learning
VOC:visual object classes
计算机视觉大赛介绍
1. ILSVRC(ImageNet Large Scale Visual Recognition Challenge)是近年来机器视觉领域最受追捧也是最具权威的学术竞赛之一,代表了图像领域的最高水平。2017年是最后一届,2010年开始举办。
2. PASCAL VOC: Ran challenges evaluating performance on object class recognition (from 2005-2012, now finished) http://host.robots.ox.ac.uk/pascal/VOC/。
3. MS COCO 的全称是常见物体图像识别(Microsoft Common Objects in Context),起源于是微软于2014年出资标注的Microsoft COCO数据集,同名竞赛与此前著名的 ImageNet 竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。而在ImageNet竞赛停办后,COCO竞赛就成为是当前物体识别、检测等领域的一个最权威、最重要的标杆,也是目前该领域在国际上唯一能汇集Google、微软、Facebook 以及国内外众多顶尖院校和优秀创新企业共同参与的大赛。