ImageNet调查报告

本文详细介绍了ImageNet大规模视觉识别挑战赛(ILSVRC),该比赛推动了计算机视觉领域的巨大进步。ILSVRC自2010年起举办,2017年结束,期间见证了深度学习模型识别率从71.8%跃升至97.3%,超越人类。重点讲述了2012年AlexNet的突破,以及后续的ResNet和Inception Net的发展。AlexNet的深度卷积神经网络结构开启了CNN的热潮,而ResNet通过残差学习解决了深度网络的退化问题,Inception Net则通过多尺度和分解卷积提升模型效率。这些模型的演变展示了深度学习在图像识别上的卓越性能。
摘要由CSDN通过智能技术生成

本篇内容是在网络中收集汇总

1. ILSVRC介绍:

ImageNet大规模视觉识别挑战赛即“ILSVRC”(ImageNet Large Scale Visual Recognition Challenge),它是基于ImageNet图像数据库的国际计算机视觉识别竞赛。ILSVRC从2010年开始举办,并逐渐发展为国际计算机视觉领域受关注度最大、水平最高、竞争最激烈的竞赛。2017年是这场竞赛的最后一年。短短7年内,优胜者的识别率就从71.8%提升到97.3%,超过了人类,并证明了更庞大的数据可以带来更好的决策。

ILSVRC使用的数据都来自ImageNet,ImageNet项目于2007年由斯坦福大学华人教授李飞飞创办,目标是收集大量带有标注信息的图片数据供计算机视觉模型训练。ImageNet拥有1500万张标注过的高清图片,总共拥有22000类,其中约有100万张标注了图片中主要物体的定位边框。

首届ImageNet的两年后,也就是2012年,发生的一件大事情,如果可以将如今人工智能领域的繁荣归功于某项比赛,那么肯定当属2012年ImageNet挑战赛宣布研究成果的那一刻。

那一年,多伦多大学的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提出了一种深度卷积神经网络结构:AlexNet,夺得了ImageNet冠军,成绩远远领先于当时的第二名。

2. 比赛指标:

从 2010 年以来,每年的 ILSVRC 都主要包括以下 3 项,后来逐渐增多:

图像分类:算法产生图像中存在的对象类别列表;

单物体定位:算法生成一个图像中含有的物体类别的列表,以及轴对齐的边框,边框指示每个物体类别的每个实例的位置和比例;

物体检测:算法生成图像中含有的物体类别的列表,以及每个物体类别中每个实例的边框,边框表示这些实例的位置和比例。

ILSVRC2016 分为五大部分,包括:目标检测、目标定位、视频中目标物体检测、场景分类、场景分析。

3. 主流算法

自从Alex和他的导师Hinton在2012年的ImageNet大规模图像识别竞赛(ILSVRC2012)中以超过第二名10个百分点的成绩(83.6%的Top5精度)碾压第二名(74.2%,使用传统的计算机视觉方法)后,深度学习真正开始火热,卷积神经网络(CNN)开始成为家喻户晓的名字;

虽然AlexNet并不是CNN的开创,但是从此开始CNN开始受到人们的强烈关注,并在ImageNet的比赛中大放异彩,2012年的AlexNet成为了研究热点从传统视觉方法到卷积神经网络的分水岭;

从12年的AlexNet(83.6%),到2013年ImageNet 大规模图像识别竞赛冠军的88.8%,再到2014年VGG的92.7%和同年的GoogLeNet的93.3%,终于,到了2015年,在1000类的图像识别中,微软提出的残差网(ResNet)以96.43%的Top5正确率,达到了超过人类的水平(人类的正确率也只有94.9%)。

以下为四种经典的卷积神经网络:

Name

Rank

Top-5

Lays

AlexNet

ILSVRC 2012年冠军

16.4%

8层

VGGNet

ILSVRC 2014年亚军

7.3%

19层

Google Inception Net

ILSVRC 2014年冠军

6.7%

22层

ResNet

ILSVRC 2015年冠军

3.57%

152层

3.1 算法学习——卷积神经网络CNN:

3.1.1 卷积神经网络(CNN)概况:

如图为神经网络示意图,图中结点表示神经元,仅有相邻层间结点有连接,同层或跨层间均无连接,分层结构,左侧输入层,右侧输出层,中间为隐藏层,隐藏层比较多(大于2)的神经网络叫做深度神经网络。

卷积神经网络是一种特殊的深层的神经网络模型,它的特殊性体现在两个方面,一方面它的神经元间的连接是非全连接的,即局部感知野的方法,每个神经元没有必要对全局图像进行感知,只需要对局部进行感知,然后在更高层将局部的信息综合起来就得到了全局的信息; 另一方面为参数共享,即可以从一个大尺寸图像中选取 一个小样本,并从该样本中学习到一些特征,然后可以把从这个样本中学习到的特征作为探测器,应用到这个图像的任意地方中去,而且可以用从样本中所学习到的特征跟原本的大尺寸图像作卷积,从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

卷积神经网络大致就是Convolutional Layer(卷积层)、pooling Layer(池化层)、ReLU Layer(修正线性单元层)、fully-connected layer(全连接层)的组合。

3.1.2 卷积层(负责特征抓取):

如图选中左上角区域的红色框叫做filter(过滤器,有时候也被称为神经元(neuron)或核(kernel)),被选中的区域被称为感受野(receptive field)。过滤器同样也是一个数组(其中的数字被称作权重或参数)。且过滤器的深度必须与输入内容的深度相同(这样才能确保可以进行数学运算),如图为大小为2 x 2的过滤器;

第二层的节点0的数值就是局部区域的线性组合,即被圈中节点的数值乘以对应的权重后相加(线性组合后,也会和前馈神经网络一样,加上一个偏移量)。

然后向后移动过滤器扫描全图,因此每个输出结点并非与全部的输入结点相连,为了不丢失图片的平面结构信息,仍采用矩阵存储输出信息。

三维下过滤器变为(对应RGB),对应的线性组合计算为

 

 

可见,在输入depth为时,2x2x个输入节点连接到1个输出节点上。示意图如下:

 

3.1.2.1 Zero padding

可以看到,每次卷积操作完图片大小都会被压缩,为了避免若干层卷积后图片越来越小的问题,也避免边缘信息被一步步舍弃的问题,采用Zero padding的方法,即在图片周围填充一圈0(或两圈),根据采用过滤器的大小来决定,以便在卷积之后,得到的Feature Map大小不变。

3.1.2.2 形状、概念抓取

首先,明确不同的形状都可由细小的“零件”组合而成的,而且卷积的每个filter可以探测特定的形状;

又由于Feature Map保持了抓取后的空间结构;

因此若将探测到细小图形的Feature Map作为新的输入再次卷积后࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值