ImageNet调查报告

最新推荐文章于 2025-02-28 17:55:11 发布

qishenlvqiao

最新推荐文章于 2025-02-28 17:55:11 发布

阅读量5.3k

点赞数

本文链接：https://blog.csdn.net/u014191607/article/details/89847240

版权

本文详细介绍了ImageNet大规模视觉识别挑战赛（ILSVRC），该比赛推动了计算机视觉领域的巨大进步。ILSVRC自2010年起举办，2017年结束，期间见证了深度学习模型识别率从71.8%跃升至97.3%，超越人类。重点讲述了2012年AlexNet的突破，以及后续的ResNet和Inception Net的发展。AlexNet的深度卷积神经网络结构开启了CNN的热潮，而ResNet通过残差学习解决了深度网络的退化问题，Inception Net则通过多尺度和分解卷积提升模型效率。这些模型的演变展示了深度学习在图像识别上的卓越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇内容是在网络中收集汇总

1. ILSVRC介绍:

ImageNet大规模视觉识别挑战赛即“ILSVRC”(ImageNet Large Scale Visual Recognition Challenge)，它是基于ImageNet图像数据库的国际计算机视觉识别竞赛。ILSVRC从2010年开始举办，并逐渐发展为国际计算机视觉领域受关注度最大、水平最高、竞争最激烈的竞赛。2017年是这场竞赛的最后一年。短短7年内，优胜者的识别率就从71.8%提升到97.3%，超过了人类，并证明了更庞大的数据可以带来更好的决策。

ILSVRC使用的数据都来自ImageNet，ImageNet项目于2007年由斯坦福大学华人教授李飞飞创办，目标是收集大量带有标注信息的图片数据供计算机视觉模型训练。ImageNet拥有1500万张标注过的高清图片，总共拥有22000类，其中约有100万张标注了图片中主要物体的定位边框。

首届ImageNet的两年后，也就是2012年，发生的一件大事情，如果可以将如今人工智能领域的繁荣归功于某项比赛，那么肯定当属2012年ImageNet挑战赛宣布研究成果的那一刻。

那一年，多伦多大学的Geoffrey Hinton、Ilya Sutskever和Alex Krizhevsky提出了一种深度卷积神经网络结构：AlexNet，夺得了ImageNet冠军，成绩远远领先于当时的第二名。

2. 比赛指标：

从 2010 年以来，每年的 ILSVRC 都主要包括以下 3 项，后来逐渐增多：

图像分类：算法产生图像中存在的对象类别列表；

单物体定位：算法生成一个图像中含有的物体类别的列表，以及轴对齐的边框，边框指示每个物体类别的每个实例的位置和比例；

物体检测：算法生成图像中含有的物体类别的列表，以及每个物体类别中每个实例的边框，边框表示这些实例的位置和比例。

ILSVRC2016 分为五大部分，包括：目标检测、目标定位、视频中目标物体检测、场景分类、场景分析。

3. 主流算法

自从Alex和他的导师Hinton在2012年的ImageNet大规模图像识别竞赛（ILSVRC2012）中以超过第二名10个百分点的成绩(83.6%的Top5精度)碾压第二名（74.2%，使用传统的计算机视觉方法）后，深度学习真正开始火热，卷积神经网络（CNN）开始成为家喻户晓的名字；

虽然AlexNet并不是CNN的开创，但是从此开始CNN开始受到人们的强烈关注，并在ImageNet的比赛中大放异彩，2012年的AlexNet成为了研究热点从传统视觉方法到卷积神经网络的分水岭；

从12年的AlexNet（83.6%），到2013年ImageNet 大规模图像识别竞赛冠军的88.8%，再到2014年VGG的92.7%和同年的GoogLeNet的93.3%，终于，到了2015年，在1000类的图像识别中，微软提出的残差网（ResNet）以96.43%的Top5正确率，达到了超过人类的水平（人类的正确率也只有94.9%）。

以下为四种经典的卷积神经网络：

Name	Rank	Top-5	Lays
AlexNet	ILSVRC 2012年冠军	16.4%	8层
VGGNet	ILSVRC 2014年亚军	7.3%	19层
Google Inception Net	ILSVRC 2014年冠军	6.7%	22层
ResNet	ILSVRC 2015年冠军	3.57%	152层

3.1 算法学习——卷积神经网络CNN：

3.1.1 卷积神经网络（CNN）概况：

如图为神经网络示意图，图中结点表示神经元，仅有相邻层间结点有连接，同层或跨层间均无连接，分层结构，左侧输入层，右侧输出层，中间为隐藏层，隐藏层比较多（大于2）的神经网络叫做深度神经网络。

卷积神经网络是一种特殊的深层的神经网络模型，它的特殊性体现在两个方面，一方面它的神经元间的连接是非全连接的，即局部感知野的方法，每个神经元没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息；另一方面为参数共享，即可以从一个大尺寸图像中选取一个小样本，并从该样本中学习到一些特征，然后可以把从这个样本中学习到的特征作为探测器，应用到这个图像的任意地方中去，而且可以用从样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

卷积神经网络大致就是Convolutional Layer（卷积层）、pooling Layer（池化层）、ReLU Layer（修正线性单元层）、fully-connected layer（全连接层）的组合。

3.1.2 卷积层（负责特征抓取）：

如图选中左上角区域的红色框叫做filter（过滤器，有时候也被称为神经元（neuron）或核（kernel）），被选中的区域被称为感受野（receptive field）。过滤器同样也是一个数组（其中的数字被称作权重或参数）。且过滤器的深度必须与输入内容的深度相同（这样才能确保可以进行数学运算），如图为大小为2 x 2的过滤器；