摘要:
我们训练一个大规模、深层次的卷积神经网络,用来把ImageNet LSVRC-2010竞赛中的120万张高分辨率的图片分成1000个不同类别。通过测试,我们最高选错率和第五选错率分别是35%和17%,这大大优于以前的最先进的算法。这个神经网络中,有6000万个参数和650000个神经元。它包含五个卷基层,紧随其后的最大池化层,以及3个全连接层与最后的1000种的softmax分类。我们使用非饱和神经元和高效GPU进行卷积运算以提高训练速度。为了减小在完全连接层的过度拟合,我们使用了名为“dropout”的正则化方法,这种方法是最新研究并且被证明是非常有效的。我们使用了该模型的一个变种参加了ILSVRC-2012竞赛,并且以前五选错率为15.3%的成绩获得冠军,而第二名的前五选错率只有26.2%。
1.介绍
当前基本都是利用机器学习进行物体识别。我们可以通过收集更大的数据集,了解更多强大的模型,并使用更好的技术防止过度拟合,来使得识别效果有更好。到目前为止,标记图像的数据集相对较小——只有成104个数量级(例如NORB[16],Caltech-101/256[8,9]和CIFAR-10/100[12])。使用这种数量级的数据集,对于一些简单的识别任务可以很好的解决,尤其是当他们使用标签保护转换的时候,这种识别将更加简单。比如,当前具有最低错误率(<0.3%)的MMIST数字识别方法[4]。但是,在现实环境中识别对象会有很大,因此想要识别出他们需要更大的训练集。事实上,人们早就认识到小图像数据集存在很多缺点(例如,Pinto等[21]),但直到最近才能收集到以百万计的标签图像集。最近新出现的大数据集包括:由105数量级个fully-segmented图片组成的LabeiMe[23]和由22000多个类别的超过1500万个含标签的高分辨率图像组成的ImageNet[6]。
为了能将百万张图像分成上千种类别,我们需要一个有很大学习能力的模型。然而,由于物体识别的巨大复杂性,即使我们使用像ImageNet这样大的数据集也不能弥补问题,因
此,我们的模型需要很多先验知识来弥补数据的缺失。卷积神经网络(CNN)构成一个[16,11,13,18,15,22,16]这样的模型类。我们可以通过改变模型的深度和广度来控制他们的能力。通过对图像性质的正确假设(即统计数据的平稳性和像素的位置依赖关系)来使得他们更加强大。因此,相比相同层数的标准前馈神经网络,虽然理论上的最高性能比较差,但是
卷积神经网络的连接和参数更少,训练更加简单。
尽管卷积神经网络有着诱人特质,尽管当本地构架有着很高的效率,但当应用到大规模高分辨率的图像上时,他们的代价很高。幸运的是,目前使用了二维卷积来高度优化的GPU都足够强大,他们能很高效的对CNNs网络进行训练,并且,现在像ImageNet这样的数据集都包含足够的标记的样本来训练这些模型而不会严重过度拟合。
本文的具体工作如下:我们用在ILSVRC-2010和ILSVRC-2012比赛[2]中使用的ImageNet的子集对我们最大卷积神经网络中的一个进行训练,我们取得同类已报告中结果最好的。我们是用了二维卷积高度优化的GPU,并且优化了训练卷积神经网络的其他操作,这些都可以可以获取到1。我们的网络中包含许多新的和不同寻常的特点,这可以提高其性能,并减少训练时间(详见第3节)。由于网络规模很大,即使我们使用120万大小的带标签样本进行训练,过度拟合的问题任然很明显,为此,我们使用了一些技术来有效的防止过度拟合(祥见第4节).我们的最终的网络包含五个卷积层和三个完全连接层,并且这个深度似乎是很重要,因为我们发现,当消除任何一个卷积层(其中每一个含有的模型参数不超过1%)都会导致性能较差。
最后,该网络的大小主要受限于我们可用GPU内存的大小和我们所能忍受训练时间的长短。我们使用了两个3GB的GTX580型号的GPU花费了5~6天来训练我们的网络。我们所有的实验表明,我们可以通过使用更快GPU和更大的数据集来获得更有效的结果。
2.数据集
ImageNet是包含了属于大约22000类别的超过1500万张含标签高分辨率图像的数据集。这些图像来源于网络,通过使用Amazon的MechanicalTurk工具包来人为添加标签。从2010年开始,每年都会举办名为ImageNet Large-Scale Visual Recognition Change(ILSVRC)的竞赛,这个竞赛是Pascal Visual Object Challenge的一部分。 ILSVRC使用ImageNet的子集,该子集中有1000个类别,而每个类别大约有1000张图像。总之,大约有120万个训练图像,50000验证图像和150000测试图像。
ILSVRC-2010是所有ILSVRC中唯一一个有带标签测试的版本,所以我们进行的大部分实验都是在这个版本的基础上。我们也使用我们的模型参加了ILSVRC2012竞赛,在第6节我们将报告在使用不含标签的数据集进行训练的测试结果。在ImageNet中,有两个常见的判断标准,即第一和第五误判率。其中前5误判率是图像中很小的一部分,因为正确的标签是不被认为在这五个有模型识别的标签之中。
ImageNet由很多种不同分辨率的图像组成,然而我们的系统需要固定维数的输入。因此我们对图像进行下采样,获取固定分辨率256*256的图像。我们把图像进行缩放,使得短边长度为256,然后剪裁出中心的256*256的部分。除了在训练中对每个像素点减去平均值,我们没有对图像做任何其他处理。所以,我们是使用原RGB像素值来训练我们的网络。
3.体系结构
我们的网络结构如图2所示。它包含5个卷积层和3个完全连接层这8个训练层。下面,我们介绍我们网络构架的一些新的或者说是不同寻常的特点。3.1到3.4是我们根据他们重要性进行的分类,其中3.1最为重要。
3.1ReLU非线性
一个神经元的标准输出函数为f(x)=tanh(x)或f(x)=(1+e-x)-1。再使用梯度下降算法进行学习时,这些饱和非线性神经元比非饱和非线性神经元f(x)=MAX(0,x)要慢的多。仿照Nair和Hinto[20],我们把这种非线性神经元作为整流线性元件(ReLUs)。使用了ReLUs的深卷积神经网络的训练速度,是使用正切方式的几倍。图1中显示了,使用CIFAR-10数据集对特定四层卷积神经网络进行训练,两种方法达到25%的训练误差的迭代次数。这表明,传统如果我们仍然使用的饱和神经元模型,那我们将不能再如此大的神经网络中进行试验。
我们不是最先想到替换CNNs中传统神经元模型的人。例如,在经过对Caltech-10数据集的本地平均池化,杰瑞特等[11]声称非线性函数f(x)=|tanh(x)|的在对比标准化方面效果更好。然而,在此数据集主要关注的是如何防止过度拟合,因此他们得到结果与我们报告中使用ReLUs加快速度是有很大不同的。加快训练速度,对于大型模型在大数据集上的训练效果的影响很显著。
3.2多GPU训练
单个GTX580 GPU只有3GB内存,这限制了可训练练网络的最大尺寸。事实证明,120万的训练样本就能训练一个网络,然而这对于一个GPU而言太大了。因此,我们将网络分布在两个GPUs中。当前GPU是特别适合于交叉GPU的并行化,因为他们能够直接对彼此的存储器进行读写操作,而不需要通过主机内存中转。我们采用的并行方案是,把内核(或者神经元)平均分布到连个GPU中,而且GPUs仅仅能在某些特定的层通信。这中间有一个小技巧。举例来说,第三层内核的输入应当来自于第二层的所有内核,然而第四层内核的输入仅来自于存储在同一个GPU中的第三层内核。如何选择的连接模式对交叉验证来说是一个难题,但是我们可以精确地调整通信量,使得它的计算量到达一个可接受级别。
所得的结构有些类似于由Ciresan等人采用的“柱状”CNN [5],不同之处在于我们的列不是独立的(见图2)。与使用一个GPU相比,使用该方案把第一和第五错误率分别减少了1.7%和1.2%。训练双GPU网络的净花费时间比单GPU网络2 略少。
3.3局部响应标准化
ReLUs具有的期望属性,使得他们不需要使用标准化的输入来防止饱和。如果一些训练样本对ReLU产生积极的输入,那么就会在这个神经元上进行学习。然而,我们仍然发现下面所述的局部标准化方案有助于一般性归纳。假设用ax,yi表示神经元i在点(x,y)处的计算活性,用来表达ReLU的非线性,响应标准化活性bx,yi通过表达式: 来获得,求和是在映射在同一位置的n的邻接内核上进行的,其中N表示该层的内核总数。在训练开始前应当确定内核映射的顺序,当然顺序是随机的。受正真的神经元启发,这种反应的标准化是通过一种侧抑制来完成的,用不同神经元计算神经元输出,在他们中创建竞争。常数k,n,α,β是超参数,它们的值是由所使用的验证组来确定;我们用k=2,n=5,α=10-4, β= 0.75。我们在某些层运用ReLU非线性后(详见3.5章),在运用这种标准化方法。这个方案与Jarrett等人的局部对比度方案有一些相似之处,但是我们的方案更准确的称为“亮度标准化”,因为我们没有减去激活量的平均值。响应标准化使我们的第一和第五错误率分别降低了1.4%和1.2%。我们在CIFAR-10数据集上也证明了该方案的有效性--在一个四层的CNN中,使用标准化时的错误率时11%,而不适用时错误率是13%3。
3.4重叠采样
CNNs中的池化层汇集了在相同内核映射的相邻神经元组输出。传统上,汇集了相邻的池单位的块不会重叠(比如[17, 11, 4])。为了更加精确,每个池化层可以认为是由s像素所分割的池单元网格组成,每个汇总是在以汇集单元为中心的z*z大小的领域内。如果我们设s=z,那么我们就得到了在CNNs中常用的传统本地池。如果我们设置s>z,我们得到重叠池。我们在整个网络中使用s=2,z=3。在产生同等尺度输出下,和使用非重叠采样的s=2,z=2相比,这个方案使得第一和第五错误率分别降低0.4%和0.3%。在训练中,我们发现,包含重叠采样的模型不易发送过度拟合。
3.5全部架构
现在我们来描述我们CNN的整体架构。如图2中所示,这个网络包含8个权值层,前五个是卷积层,剩下的三个是全连接的。最后一个全连接层的输出将作为大小为1000的softmax分类的输入,结果将确定是1000个标签中的哪个。我们使网络中的多项式回归最大化,这意味着使训练中预测正确的对数概率的平均值最大。在第2,4,5卷积层的神经元只能与分布在同一个GPU上的前一层的神经元相连接(见图2)。第三卷积层的神经元与第二卷积层的所有神经元相连接。全连接层的神经元与它前一层的所有神经元相连接。响应标准化层在第一和第二卷积层之后。在响应标准化层和第五卷积层后都连接着3.4章所描述的最大池化层。在卷积层和全连接层的输出都运用了ReLU的非线性。
第一卷积层用96个大小为11*11*3的神经元以步长为4像素把输入为224*224*3的图像输入进行过滤(这个步长是在神经元地图中两个邻近神经元领域中心的可接受距离)。第二卷积层把第一卷积层的输出作为输入(在响标准化和池化之后)用256个5*5*48的神经元进行过滤。第三,四,五卷积层和另一个相连接而没有响应标准化和池化层。第三卷积层有384个3*3*256神经元与第二卷积层的输出相连接(标准化和池化之后)。第四和第五卷积层分别有384个3*3*192神经元和256个3*3*192神经元。全连接层每层有4096个神经元。
图 2
4.降低过度拟合
我们的神经网络架构有6千万个参数。虽然1000类别的ILSVRC图像使得再由图像到标签的映射中有10位的约束,但是如果不考虑过度拟合,训练这么多的参数仍然是不够的。下面,将介绍两种我们用来防止过度拟合的主要方法。
4.1.数据增强
最简单和最常用降低图片数据过度拟合的方法是认为的扩大使用标签保存转换的数据集(例如[25,4,5])。我们使用两种不同形式的数据增强,这两种形式有原始图像转换使用的计算量都很小,因此不需要把转换后的图像存储在磁盘上。在实际应用中,在GPU对前一批图像上进行训练时,我们在CPU上用Python代码完成图像的转换。所以这些数据增强方案实际上是不需要额外的计算量的。
第一种数据增强是包括图像转换的产生和水平翻转。我们从256*256大小的图像中随机提取224*224大小的块(并且进行水平翻转),然后用这些块进行训练网络4。尽管这样使得我们的训练样本具有高度依赖性,但这为我们的训练集增加了一个2048因子。如果没有这个方案,我们的网络将会有很多过度拟合,这会迫使我们使用更小的网络。在测试时,通过提取的5个224*224块(4个边角和一个中心)和它们的水平翻转(因此共10个块)做出预测,并且对这十个通过网络softmax层的预测求平均值。
第二种数据增强是包括改变训练图像样本的RGB通道强度。具体来说,我们队ImageNet训练集图像的RGB空间做PCA。对于每一个训练图像,我们扩大所发现主成分的倍数,使得对应特征值符合均值为0,方差为0.1的高斯分布。因此,对于每一个RGB图像像素Ixy=[IxyR,IxyG,Ixyb]添加如下的量:[p1,p2,p3][α1λ1,α2λ2,α3λ3]T其中pi和λi分别是RGB像素值的3*3协方差矩阵的特征向量和特征值,αi是上述的随机变量。每一个αi对于一个特殊的训练图像的所有像素只绘制一次,除非这个图像再次用来训练,这时才重新绘制。这个方案主要是利用了在自然图像识别中的一个重要属性,即识别结果对于光照强度和颜色具有不变性。这个方案使我们的最高错误率减少了超过1%。
4.2dropout
联合许多不同的模型对于降低测试错误率[1,3]是一个很成功的方法,然而对于已经训练了几天的大型神经网络而言,这种方法的花费太大了。然而,有一个非常有效的模型联合方法,该方法在训练中的成本只花费了一个2因子。最近新推出的名为“dropout”[10]技术,该技术设定每个隐藏神经元的输出为0的概率为0.5。用这种方式“droped out”后的神经元不利于向前传到并且不参与反向传播算法。所以对应每一个输入,神经网络样本都会不同,但是这些架构均摊权重。这种技术减小了神经元之间互适应的复杂性,因为神经元不能依赖与其他特定神经元的存在。因此,被迫学习更多强大的特征,这些特征在与其他神经元的不同随机子集联合中很有用。在测试时,我们使用所有的神经元,但是输出乘以0.5,这是对使用指数级“dropout”网络产生预测分类的几何平均值的合理近似。
我们在如图2所示的前两个全连接层中使用“dropout”。如果没有使用“dropout”,我们的网络将会有大量的过度拟合。“dropout”使得收敛所需要的迭代次数大致增加一倍。
5.学习细节
我们使用梯度下降算法在一个批量大小为128个样本进行训练,使用0.9倍动量,权值衰减为0.0005。虽然权值衰减值很小,但是对于学习很重要。换句话说,权值衰减在这里不仅仅是一个正则化,它减小了模型的训练误差。权值W的更新公式为:
其中i是迭代索引,v是动量变量,ε是学习速率,〖<∂L/∂w|w_i>〗_Di 是第i批Di对目标函数求W的偏导的平均值。
我们设置每层的初始权值满足均值为0方差为0.01的高斯分布。我们把初始化第二,四,五卷积层和全连接隐藏层的偏差为常数1。这种初始化,使得对于ReLUs积极的输入加速了前期阶段的学习。我们把其他层的神经元偏差初始化为常数0。我们人工调整整个训练,使得所有层具有相同的学习速率。我们使用启发式的方法,即当使用当前学习率验证错误率停止增长时,我们用10除学习率。学习率初始化为0.01,在三次修改后停止变化。我们使用120万的图像集对网络进行了大约90轮的训练,这在NVIDIA GTX 580 3GB GPUs上花费了5~6天完成。
6结果
我们在ILSVRC-2010的结果总结为表1。我们网络的第一和第五测试错误率分别为37.5%和17.0%5。在ILSVRC-2010竞赛中取得最好结果的第一和第五错误率分别为47.1%和28.2%,这是通过6个稀疏编码模型利用不同的特征进行训练求预测平均值的方法得到的。从那以后,公认的最好的结果为45.7%和25.7%,这是在“Fisher Vectors”(FVs)上计算从两种类型密集采样特征进行训练,对两个分类器预测结果取平均值得到的[24]。
我们也使用我们的模型参见了ILSVRC-2012的竞赛,结果如表2所示。由于ILSVRC-2012的带标测试集相外部提供,所以我们报告所有我们所尝试过模型的错误率。在接下来的段落中,我们使用验证来代替测试错误率,因为以我们的经验,两者差距不会超过0.1%(见表2)。在我们论文中所述的CNN的第五错误率为18.2%。五个相似的CNNs取平均值得到结果的错误率为16.4%。我们用ImageNet Fall 2011(15M张图片,22k个类别)训练一个CNN,这个网络在最后池化层后有6个额外的卷积层,把这个网络“微调”后,在ILSVR-2012上的错误率为16.6%。两个使用Fall 2011预训练的CNNs和五个上述的CNNs预测平均值的错误率为15.3%。第二名是通过7个在FVs上用不同类型密集采样特征计算预测结果的平均值得到的,其错误率为26.2%[7]。
图 3 |
表 2
|
最后,我们也在具有10184个类别,890万张图片的Fall 2009上测试了错误率。在这个训练集上,我们遵循了文献引用惯例,使用了一半进行训练,一半用来测试。由于没有建立测试集,我们的分割部分应当与之前的作者的分割不同,但显然这对结果的影响并不明显。我们在这个训练集上得到第一和第五错误率分别为67.4%和40.9%,这个结果是我们通过在上述的网络中的最大池化层后添加六个卷积层所得到网络上取得的。已公布在这个数据集上最好的结果为78.1%和60.9%[19]。
表 3
|
6.1定性评价
图3显示了通过网络的两个数据连接层学习得到卷积神经元。这个网络训练了各种类别的频率和方向选择神经元,以及各种颜色的斑点。考虑到在两个GPUs上实现的,因此有了如3.5章所详述的限制连接的结果。在GPU1上的神经元是颜色不可感知的,而在GPU2上的神经元是颜色了感知的。这种专业化过程发生在每一次运行中,并且独立于初始随机权重(GPUs重新编号的模)。我们对如图4所示的8张测试图像进行识别,计算得到前五预测结果,通过这种方法对我们网络所学到的东西进行评估。注意到,即使是在图像边缘的物体如坐上的螨虫,仍然可以通过网络进行识别。大部分得到的前五标签结果都是合理的。例如,只有其他类别的猫被似是而非的被认为是豹子。在某些情况下(格栅,樱桃),这些预期重点是真正模糊的。
另外一种测试网络视觉只是的方法是考虑最后由图像引起的特征激活量,即4096维隐藏层。如果两个图像产生的特征活化载体符合一个小的欧几里得特征分布,那么我们可以认为这两个图像在更高层次的神经网络上是相似的。图四显示的五张测试集图像和六张训练集图像,根据上述的方式测试,他们彼此之间具有最大的相似度。注意到在像素级,在第一列检索到的图像在L2一般不会很相近。例如,检测到的狗和大象显示的姿势是各式各样的。我们还提供了更多额外材料的测试结果。
通过两个4096维的欧式距离来计算相似度。实值向量是低效的,然而可以通过训练自编码来压缩得到短二进制编码,以使得向量有效。相比于直接在原始像素上使用自编码[14],这是一种更好的图像检索方法。它不使用图像标签,因为它倾向于通过相似的图案边缘来进行索引,而不论它们在语义上是否相近。
图 4
7.讨论
我们的研究结果表明,一个大的深层次的神经网络在非常具有挑战性的数据集上纯粹的使用监督学习能够打破记录,取得很好的结果。如果一个卷积层被移除,那么我们的神经网络的性能会明显的下降。举例来说,每移走一层中间层第一错误率会增加2%。所以,为了达到我们的结果,网络的深度真的很重要。
为了简化实验,我们没有使用任何非监督学习的预处理,尽管我们认为它将很有帮助,特别是如果我们有足够的计算能力去故意增加网络的大小,而不对应的增加带标数据的大小。如果那样,在更大规模的网络和更长的训练时间的情况下,我们的结果将会更好。但是,为了与人类视觉模型系统相匹配,我们要有很多规则需要遵循。最后,我们想要将更大,更深的卷积网络运用到视频中,在视屏中,时间结果的关联性将为我们提供非常有用的信息,而在静态图像中无法获得这些信息。
参考文献:
[1] R.M. Bell and Y. Koren. Lessons from the netflix prizechallenge. ACM SIGKDD Explorations Newsletter,9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visualrecognition challenge 2010. www.imagenet.org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning,45(1):5–32, 2001.
[4] D. Cire¸san, U. Meier, and J. Schmidhuber. Multi-columndeep neural networks for image classification.Arxiv preprint arXiv:1202.2745,2012.
[5] D.C. Cire¸san, U. Meier, J. Masci, L.M. Gambardella, andJ. Schmidhuber. High-performance neural networks for visual objectclassification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L.Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L.Fei-Fei. ILSVRC-2012, 2012.
[8] L. Fei-Fei, R. Fergus, and P. Perona. Learninggenerative visual models from few training examples: An incremental bayesianapproach tested on 101 object categories. Computer Vision and Image Understanding,106(1):59–70,2007.
[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 objectcategory dataset. Technical Report 7694, California Institute of Technology,2007. URL http://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I.Sutskever, and R.R. Salakhutdinov. Improving neural networks by preventingco-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y.LeCun. What is the best multi-stage architecture for object recognition? InInternational Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of featuresfrom tiny images. Master’s thesis, Department of Computer Science, Universityof Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks oncifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deepautoencoders for content-based image retrieval. In ESANN, 2011.
[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E.Howard, W. Hubbard, L.D. Jackel, et al. Handwritten digit recognition with aback-propagation network. In Advances in neural information processing systems,1990.
[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methodsfor generic object recognition with invariance to pose and lighting. InComputer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutionalnetworks and applications in vision. In Circuits and Systems (ISCAS),Proceedings of 2010 IEEE International Symposium on, pages 253–256. IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng.Convolutional deep belief networks for scalable unsupervised learning ofhierarchical representations. In Proceedings of the 26th Annual InternationalConference on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka.Metric Learning for Large Scale Image Classification: Generalizing to NewClasses at Near-Zero Cost. In ECCV - European Conference on Computer Vision,Florence, Italy, October 2012.
[20] V. Nair and G. E. Hinton. Rectified linear unitsimprove restricted boltzmann machines. In Proc. 27th InternationalConference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-worldvisual object recognition hard? PLoS computational biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. Ahigh-throughput screening approach to discovering good forms of biologicallyinspired visual representation. PLoS computational biology, 5(11):e1000579, 2009.
[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman.Labelme: a database and web-based tool for image annotation. Internationaljournal of computer vision, 77(1):157–173, 2008.
[24] J. Sánchez and F. Perronnin. High-dimensional signaturecompression for large-scale image classification. In Computer Vision andPattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE, 2011.
[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Bestpractices for convolutional neural networks applied to visual documentanalysis. In Proceedings of the Seventh International Conference on DocumentAnalysis and Recognition, volume 2, pages 958–962, 2003.
[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M.Helmstaedter, K. Briggman,W. Denk, and H.S. Seung. Convolutional networks canlearn to generate affinity graphs for image segmentation. Neural Computation, 22(2):511–538,2010.