本文中,作者训练了一个大型的深度卷积神经网络。
作者将2010年ILSVRC挑战杯包含的120万高分辨率图像分类100种不同的类别。
在测试数据方面,作者取得了远超过去最佳水平的效果,分别为17%和37.5%的top-5和top-1错误率。
有着6000万参数和65万神经元的神经网络由5个部分连接Max池化层的卷积层和3个全连接层连带着1000路softmax组成。
为了加快训练速度,作者采用非饱和神经元和一个高效的卷积操作的GPU执行器。
为了降低全连接层的过拟合,作者采用了一项近期发展的已被证明有效的名为dropout的正则化方法。
ImageNet是一个属于大约有22000类别的超过1500万标记的高分辨率图像的数据集。
图片是从网上收集的并且被人工添加标识。
ILSVRC-2010是ILSVRC的唯一可用的有标识的测试集版本也是作者使用的版本,而它的测试集标签无法获取的。
在ImageNet上,习惯上报告两种错误率:top-1和top-5,其中top-5错误率是正确标签不在被模型认为最可能的五个标签之中的测试图像的分数。
ImageNet由可变分辨率的图像组成,而我们的系统需要恒定的输入维度。因此,作者将图像欠采样到256*256的固定分辨率。给定一个矩形图像,首先重新缩放图像,使得短边的长度为256,然后从结果图像中裁剪出中心256 * 256的部分。
除了从每个像素中减去训练集上的平均激活值之外,作者没有以任何其他方式预处理图像。 所以作者在像素的(中心化的)原始的RGB值上训练了作者的网络。
cnn总体构架
如图2所示,这个网络包含八个带权重的层; 前五个是卷积层,其余三个全连接层。最后全连接层的输出被馈送到1000路softmax,其产生1000个类别标签上的分布。我们的网络最大化多项逻辑回归函数,这相当于在预测分布下最大化正确标签的对数概率的训练案例的平均值。
图2:总体架构图,明确显示两个GPU之间职责的划分。一个GPU运行图形顶部部分,另一个运行图形底部部分。GPU仅在特定层通信。网络的输入是150,528维,网络剩余层中的神经元数为253,440-186,624-64,896-64,896-43,264-4096-4096-1000。
第二,第四和第五卷积层的内核仅与位于同一GPU上的前一层中的那些内核映射相连。第三卷积层的内核连接到第二层中的所有内核映射。全连接层中的神经元连接到前一层中的所有神经元。响应标准化层连在第一和第二卷积层。3.4节中描述的最大池化层连在响应规范化层以及第五卷积层。将ReLU非线性应用于每个卷积和完全连接层的输出。
第一卷积层用96个大小为11 * 11 * 3的过滤器以4个像素的步幅卷积224 * 224 * 3输入图像。第二卷积层将第一卷积层的(响应归一化和池化)输出作为输入,并用大小为256×5×48的过滤器对其进行卷积。第三,第四和第五卷积层彼此连接而没有任何池化层或标准化层。第三卷积层具有连接到第二卷积层的(响应归一化和池化)输出的大小为3 * 3 * 256的384个过