综述论文-卷积神经网络:从基础技术到研究前景

综述论文-卷积神经网络:从基础技术到研究前景

大部分内容源自:我爱计算机视觉 但原文大部分是直接翻译小节的introduction并未深度总结, 我对该文进行扩展并根据论文进行总结.

内容翻译自York university CS专业的 Isma Hadji 和 Richard P. Wildes 发表了论文《What Do We Understand About Convolutional Networks?》

1.1 motivation

过去几年来,计算机视觉研究主要集中在卷积神经网络(常简称为 ConvNet 或 CNN)上。这些工作已经在广泛的分类和回归任务上实现了新的当前最佳表现。相对而言,尽管这些方法的历史可以追溯到多年前,但对这些系统得到出色结果的方式的理论理解还很滞后。事实上,当前计算机视觉领域的很多成果都是将 CNN 当作黑箱使用,这种做法是有效的,但其有效的原因却非常模糊不清,这严重满足不了科学研究的要求。尤其是这两个可以互补的问题:(1)在被学习的方面(比如卷积核),究竟被学习的是什么?(2)在架构设计方面(比如层的数量、核的数量、池化策略、非线性的选择),为什么某些选择优于另一些选择?这些问题的答案不仅有利于提升我们对 CNN 的科学理解,而且还能提升它们的实用性。

此外,目前实现 CNN 的方法需要大量训练数据,而且设计决策对结果表现有很大的影响。更深度的理论理解应该能减轻对数据驱动的设计的依赖。尽管已有实证研究调查了所实现的网络的运行方式,但到目前为止,这些结果很大程度上还局限在内部处理过程的可视化上,目的是为了理解 CNN 中不同层中发生的情况。

1.2 target

针对上述情况,本报告将概述研究者提出的最突出的使用多层卷积架构的方法。要重点指出的是,本报告将通过概述不同的方法来讨论典型卷积网络的各种组件,并将介绍它们的设计决策所基于的生物学发现和/或合理的理论基础。此外,本报告还将概述通过可视化和实证研究来理解 CNN 的不同尝试。本报告的最终目标是阐释 CNN 架构中涉及的每一个处理层的作用,汇集我们当前对 CNN 的理解以及说明仍待解决的问题。

1.3 structure

本报告的结构如下:本章给出了回顾我们对卷积网络的理解的动机。第 2 章将描述各种多层网络并给出计算机视觉应用中使用的最成功的架构。第 3 章将更具体地关注典型卷积网络的每种构造模块,并将从生物学和理论两个角度讨论不同组件的设计。最后,第 4 章将会讨论 CNN 设计的当前趋势以及理解 CNN 的工作,并且还将重点说明仍然存在的一些关键短板。

2 多层网络

总的来说,本章将简要概述计算机视觉领域中所用的最突出的多层架构。需要指出,尽管本章涵盖了文献中最重要的贡献,但却不会对这些架构进行全面概述,因为其它地方已经存在这样的概述了(比如 [17, 56, 90])。相反,本章的目的是为本报告的剩余部分设定讨论基础,以便我们详细展示和讨论当前对用于视觉信息处理的卷积网络的理解。

2.1 多层架构

在近来基于深度学习的网络取得成功之前,最先进的用于识别的计算机视觉系统依赖于两个分离但又互补步骤。第一步是通过一组人工设计的操作(比如与基本集的卷积、局部或全局编码方法)将输入数据变换成合适的形式。对输入的变换通常需要找到输入数据的一种紧凑和/或抽象的表征,同时还要根据当前任务注入一些不变量。这种变换的目标是以一种更容易被分类器分离的方式改变数据。其次,被变换的数据通常用于训练某些类型的分类器(比如支持向量机)来识别输入信号的内容。通常而言,任何分类器的表现都会受到所使用的变换方法的严重影响。

多层学习架构为这一问题带来了不同的前景,这种架构提出不仅要学习分类器,而且要从数据中直接学习所需的变换操作。这种形式的学习通常被称为**「表征学习」,当应用在深度多层架构中时即被称为「深度学习」**。

多层架构可以定义为**允许从输入数据的多层抽象中提取有用信息的计算模型。**一般而言,多层架构的设计目标是在更高层凸显输入中的重要方面,同时能在遇到更不重要的变化时变得越来越稳健。大多数多层架构都是将带有交替的线性和非线性函数的简单构建模块堆叠在一起。多年以来,研究者已经提出了很多不同类型的多层架构,本章将会覆盖计算机视觉应用中所采用的最为突出的此类架构。人工神经网络是其中的关注重点,因为这种架构的表现非常突出。为了简单起见,后面会直接将这类网络称为「神经网络」。

2.1.1 神经网络

典型的神经网络有一个输入层, 一个输出层和多个隐藏层构成, 其中每一层都包含多个单元.

自动编码器可以定义为由两个主要部分构成的多层神经网络。第一个部分是编码器,可以将输入数据变换成特征向量;第二个部分是解码器,可将生成的特征向量映射回输入空间。

2.1.2 RNN

对于序列任务来说, RNN是最成功的框架之一. RNN 可以被视为一种特殊类型的神经网络, 其中每个隐藏单元的输入是其当前时间步骤观察到的数据和其前一个时间步骤的状态.

图 2.3:标准循环神经网络的运算的示意图。每个 RNN 单元的输入都是当前时间步骤的新输入和前一个时间步骤的状态;然后根据 h t = σ ( ω i x t + u i h t − 1 ) h_{t} = \sigma{(\omega_i x_t+u_i h_{t-1})} ht=σ(ωixt+uiht1)计算得到新输出,这个输出又可被馈送到多层 RNN 的下一层进行处理。

  • LSTM

    图 2.4:典型 LSTM 单元示意图。该单元的输入是当前时间的输入和前一时间的输入,然后它会返回一个输出并将其馈送给下一时间。LSTM 单元的最终输出由输入门、输出门和记忆单元状态控制.

  • ESN

2.1.3 CNN

卷积网络(CNN)是一类尤其适合计算机视觉应用的神经网络,因为它们能使用局部操作对表征进行分层抽象。有两大关键的设计思想推动了卷积架构在计算机视觉领域的成功。第一,CNN 利用了图像的 2D 结构,并且相邻区域内的像素通常是高度相关的。因此,CNN 就无需使用所有像素单元之间的一对一连接(大多数神经网络都会这么做),而可以使用分组的局部连接。第二,CNN 架构依赖于特征共享,因此每个通道(即输出特征图)是在所有位置使用同一个过滤器进行卷积而生成的。

图2.5: AlexNet, 文献[93]

图 2.6:Neocognitron 的结构示意图,图来自 [49]

2.1.4 GAN

典型的生成对抗网络(GAN)由两个互相竞争的模块或子网络构成,即:生成器网络和鉴别器网络。

图 2.7:生成对抗网络的一般结构的示意图

2.1.5 多层网络的训练

如前面讨论的一样,多种多层架构的成功都很大程度上取决于它们的学习过程的成功。其训练过程通常都基于使用梯度下降的误差的反向传播。由于使用简单,梯度下降在训练多层架构上有广泛的应用。

2.1.6 简单说说迁移学习

使用多层架构提取的特征在多种不同数据集和任务上的适用性可以归功于它们的分层性质,表征会在这样的结构中从简单和局部向抽象和全局发展。因此,在其层次结构中的低层级提取的特征往往是多种不同任务共有的特征,因此使得多层结构更容易实现迁移学习。

2.2 空间卷积网络

理论上而言,卷积网络可以应用于任意维度的数据。它们的二维实例非常适用于单张图像的结构,因此在计算机视觉领域得到了相当大的关注。有了大规模数据集和强大的计算机来进行训练之后,CNN 近来在多种不同任务上的应用都出现了迅猛增长。本节将介绍为原来的 LeNet 引入了相对新颖的组件的比较突出的 2D CNN 架构。

2.2.1 CNN 经典架构
  • AlexNet

    图 2.8:AlexNet 架构。需要指出,虽然从图上看这是一种有两个流的架构,但实际上这是一种单流的架构,这张图只是说明 AlexNet 在 2 个不同 GPU 上并行训练的情况。图来自 [88]
  • Inception

    图 2.9:GoogLeNet 架构。(a)典型的 inception 模块,展示了顺序和并行执行的操作。(b)由层叠的许多 inception 模块构成的典型 inception 架构的示意图。图来自 [138]
  • Resnet

    图 2.10:ResNet 架构。(a)残差模块。(b)由层叠的许多残差模块构成的典型 ResNet 架构示意图。图来自 [64]
  • DenseNet

    图 2.11:DenseNet 架构。(a)dense 模块。(b)(b)由层叠的许多 dense 模块构成的典型 DenseNet 架构的示意图。图来自 [72]
2.2.2 实现CNN的不变性

使用 CNN 的一大难题是需要非常大的数据集来学习所有的基本参数。甚至拥有超过 100 万张图像的 ImageNet 等大规模数据集在训练特定的深度架构时仍然被认为太小。满足这种大数据集要求的一种方法是人工增强数据集,具体做法包括对图像进行随机翻转、旋转和抖动(jittering)等。这些增强方法的一大优势是能让所得到的网络在面对各种变换时能更好地保持不变。

2.2.3 实现CNN的定位

除了识别物体等简单的分类任务,CNN 近来也在需要精准定位的任务上表现出色,比如语义分割和目标检测。

2.3 时空卷积网络

使用 CNN 为各种基于图像的应用带来了显著的性能提升,也催生了研究者将 2D 空间 CNN 扩展到视频分析的 3D 时空 CNN 上的兴趣。一般而言,文献中提出的各种时空架构都只是试图将空间域 (x,y) 的 2D 架构扩展到时间域 (x, y, t) 中。在基于训练的时空 CNN 领域存在 3 种比较突出的不同架构设计决策:基于 LSTM 的 CNN、3D CNN 和 Two-Stream CNN。

2.3.1 基于LSTM的时空CNN

基于 LSTM 的时空 CNN 是将 2D 网络扩展成能处理时空数据的一些早期尝试。它们的操作可以总结成图 2.16 所示的三个步骤。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2kao2OFt-1572915981856)(C:\Users\dy\Desktop\A9REED0.png)]
第一步,使用一个 2D 网络处理每一帧,并从这些 2D 网络的最后一层提取出特征向量。第二步,将这些来自不同时间步骤的特征用作 LSTM 的输入,得到时间上的结果。第三步,再对这些结果求平均或线性组合,然后再传递给一个 softmax 分类器以得到最终预测。

2.3.2 3D CNN

这种突出的时空网络是将 2D CNN 最直接地泛化到图像时空域中。它直接处理 RGB 图像的时间流,并通过应用所学习到的 3D 卷积过滤器来处理这些图像。eg:T-resnet.

2.3.3 Two-Stream CNN

这种类型的时空架构依赖于一种双流式(two-stream)的设计。标准的双流式架构是采用两个并行通路——一个用于处理外观,另一个用于处理运动;这种方法类似于生物视觉系统研究中的双流式假设。eg: I3D

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UAnPxsnp-1572915981858)(C:\Users\dy\Desktop\A9REED2.png)]

图2.17: 原始的Two-Stream CNN; 堆叠图像作为视频流, 文献[134]

2.4 整体讨论

需要重点指出的是,尽管这些网络在很多计算机视觉应用上都实现了很有竞争力的结果,但它们的主要缺点仍然存在:

  • 对所学习到的表征的确切本质的理解很有限
  • 依赖于大规模数据训练集
  • 缺乏支持准确的表现边界的能力
  • 网络超参数选择不清晰。

3 理解CNN的构建模块

鉴于 CNN 领域存在大量悬而未决的问题,本章将介绍典型卷积网络中每种处理层的作用和意义。为此本章将概述在解决这些问题上最突出的工作。尤其值得一提的是,我们将从理论和生物学两个角度来展示 CNN 组件的建模方式。每种组件的介绍后面都总结了我们当前的理解水平。

3.1 卷积层

卷积层可以说是 CNN 架构中最重要的步骤之一。基本而言,卷积是一种线性的、平移不变性的运算,其由在输入信号上执行局部加权的组合构成。根据所选择的权重集合(即所选择的点扩散函数(point spread function))的不同,也将揭示出输入信号的不同性质。在频率域中,与点扩散函数关联的是调制函数——说明了输入的频率组分通过缩放和相移进行调制的方式。因此,选择合适的核(kernel)对获取输入信号中所包含的最显著和最重要的信息而言至关重要,这能让模型对该信号的内容做出更好的推断。本节将讨论一些实现这个核选择步骤的不同方法。
论文3.1节从生物学角度和理论角度对卷积层的工作机理进行分析, 有一些用来说明原理的可视化图片.

根据文献[59]的说法, 卷积核的可优化参数是通过训练一个网络来最小化损失函数, 这个函数L这是三个目标的组合:
L = ∑ l = 1 L L t a s k ( . ) + ∑ l = 1 L e o n v L c o n v ( . ) + ∑ l = L c o n v + 1 L L f e ( . ) \mathcal{L}=\sum_{l=1}^{L} \mathcal{L}_{t a s k}(.)+\sum_{l=1}^{L_{e o n v}} \mathcal{L}_{c o n v}(.)+\sum_{l=L_{c o n v}+1}^{L} \mathcal{L}_{f e}(.) L=l=1LLtask(.)+l=1LeonvLconv(.)+l=Lconv+1LLfe(.)
其中 L c o n v L_conv Lconv是卷积层数, L L L是总层数. 在上式中, L f c L_fc Lfc L c o n v L_conv Lconv是fc层和conv层的非监督损失函数. 它们的作用是最小化重建误差,并使用未标记的数据进行训练. 与之对应的 L t a s k L_task Ltask是一个监督损失函数, 该函数是用来训练最大化分类准确率的. 因此,每个层中的卷积核 K K K的数量是可调的通过最小化重构误差和任务相关的损失函数。该方法允许网络同时使用带标签和未带标签的数据。

3.2 整流(激活函数)

多层网络通常是高度非线性的,而整流(rectification)则通常是将非线性引入模型的第一个处理阶段。整流是指将点方面的非线性(也被称为激活函数)应用到卷积层的输出上。这一术语借用自信号处理领域,其中整流是指将交流变成直流。这也是一个能从生物学和理论两方面都找到起因的处理步骤。计算神经科学家引入整流步骤的目的是寻找能最好地解释当前神经科学数据的合适模型。另一方面,机器学习研究者使用整流的目的是为了让模型能更快和更好地学习。有趣的是,这两个方面的研究者往往都认同这一点:他们不仅需要整流,而且还会殊途同归到同一种整流上。
该章节介绍了一些常用的激活函数:

3.3 归一化 (Normalization)

由于这些网络中存在级联的非线性运算,所以多层架构是高度非线性的。除了前一节讨论的整流非线性,归一化(normalization)是 CNN 架构中有重要作用的又一种非线性处理模块。CNN 中最广泛使用的归一化形式是所谓的 Divisive Normalization(DN,也被称为局部响应归一化)。本节将介绍归一化的作用并描述其纠正前两个处理模块(卷积和整流)的缺点的方式。本章节从生物学和理论两个方面讨论归一化。

3.4 池化

不管是生物学启发的,还是纯粹基于学习的或完全人工设计的,几乎所有 CNN 模型都包含池化步骤。池化运算的目标是为位置和尺寸的改变带来一定程度的不变性以及在特征图内部和跨特征图聚合响应。与之前几节讨论的三种 CNN 模块类似,池化在生物学和理论研究上都具有支持。在 CNN 网络的这个处理层上,主要的争论点是池化函数的选择。使用最广泛的两种池化函数分别是平均池化和最大池化。本节将探索相关文献中描述的各种池化函数的优点和缺点。

图 3.10:平均池化和最大池化在 Gabor 滤波后的图像上的比较。(a)展示了不同尺度的平均池化的效果,其中(a)中上面一行是应用于原始灰度值图像的结果,(a)中下面一行是应用于 Gabor 滤波后的图像上的结果。平均池化能得到灰度值图像的更平滑的版本,而稀疏的 Gabor 滤波后的图像则会褪色消散。相对而言,(b)给出了不同尺度的最大池化的效果,其中(b)中上面一行是应用于原始灰度值图像的结果,(b)中下面一行是应用于 Gabor 滤波后的图像上的结果。这里可以看到,最大池化会导致灰度值图像质量下降,而 Gabor 滤波后的图像中的稀疏边则会得到增强。图来自 [131]

  • 空间金字塔池化SPP-Net

SPP-Net在最后一个卷积层之后引入了空间金字塔池化层,以纠正这一难题。 特别是,空间金字塔池用于生成固定大小的表示形式,与输入图像的大小无关,如图3.13所示。 值得注意的是,NiN中使用的全局平均池类似于在ConvNet的最后一层执行空间金字塔池,其中金字塔仅由最粗糙的层组成。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VWPMycXr-1572915981865)(C:\Users\dy\Desktop\A9RE63D.png)]

图3.13:空间金字塔池网络。 SPP应用于网络的最后卷积层的特征图。 由于空间仓与图像大小成正比,因此SPP生成与输入图像大小无关的相同大小的特征向量。 因此,SPP-Net不需要对输入图像进行相同大小的预处理。 图转载自[62]。

4 当前状态

对 CNN 架构中各种组件的作用的论述凸显了卷积模块的重要性,这个模块很大程度上负责了在网络中获取最抽象的信息。相对而言,我们对这个处理模块的理解却最少,因为这需要最繁重的计算。本章将介绍在尝试理解不同的 CNN 层所学习的内容上的当前趋势。同时,我们还将重点说明这些趋势方面仍有待解决的问题。

4.1 当前趋势

尽管各种 CNN 模型仍继续在多种计算机视觉应用中进一步推进当前最佳的表现,但在理解这些系统的工作方式和如此有效的原因上的进展仍还有限。这个问题已经引起了很多研究者的兴趣,为此也涌现出了很多用于理解 CNN 的方法。一般而言,这些方法可以分成三个方向:对所学习到的过滤器和提取出的特征图进行可视化、受理解视觉皮层的生物学方法启发的 ablation study、通过向网络设计中引入分析原理来最小化学习过程。本节将简要概述其中每种方法。

  • Understanding ConvNets via visualization 通过可视化了解ConvNet [154]
  • Understanding ConvNets via ablation studies 通过消融研究了解ConvNet [133, 104]
  • Understanding ConvNets via controlled design 通过受控设计了解ConvNet [28, 75, 100, 148, 158].

4.2 仍待解决的问题

基于上述讨论,基于可视化的方法存在以下关键研究方向:

  • 首要的一点:开发使可视化评估更为客观的方法是非常重要的,可以通过引入评估所生成的可视化图像的质量和/或含义的指标来实现。

  • 另外,尽管看起来以网络为中心的可视化方法更有前景(因为它们在生成可视化结果上不依赖网络自身),但似乎也有必要标准化它们的评估流程。一种可能的解决方案是使用一个基准来为同样条件下训练的网络生成可视化结果。这样的标准化方法反过来也能实现基于指标的评估,而不是当前的解释性的分析。

  • 另一个发展方向是同时可视化多个单元以更好地理解处于研究中的表征的分布式方面,甚至同时还能遵循一种受控式方法。

以下是基于 ablation study 的方法的潜在研究方向:

  • 使用共同的系统性组织的数据集,其中带有计算机视觉领域常见的不同难题(比如视角和光照变化),并且还必需有复杂度更大的类别(比如纹理、部件和目标上的复杂度)。事实上,近期已经出现了这样的数据集 [6]。在这样的数据集上使用 ablation study,加上对所得到的混淆矩阵的分析,可以确定 CNN 架构出错的模式,进而实现更好的理解。

  • 此外,对多个协同的 ablation 对模型表现的影响方式的系统性研究是很受关注的。这样的研究应该能延伸我们对独立单元的工作方式的理解。

最后,这些受控方法是很有前景的未来研究方向;因为相比于完全基于学习的方法,这些方法能让我们对这些系统的运算和表征有更深入的理解。这些有趣的研究方向包括:

  • 逐步固定网络参数和分析对网络行为的影响。比如,一次固定一层的卷积核参数(基于当前已有的对该任务的先验知识),以分析所采用的核在每一层的适用性。这个渐进式的方法有望揭示学习的作用,而且也可用作最小化训练时间的初始化方法。

  • 类似地,可以通过分析输入信号的性质(比如信号中的常见内容)来研究网络架构本身的设计(比如层的数量或每层中过滤器的数量)。这种方法有助于让架构达到适宜应用的复杂度。

  • 最后,将受控方法用在网络实现上的同时可以对 CNN 的其它方面的作用进行系统性的研究,由于人们重点关注的所学习的参数,所以这方面得到的关注较少。比如,可以在大多数所学习的参数固定时,研究各种池化策略和残差连接的作用。

Bibliography

[1] P. Agrawal, R. Girshick, and J. Malik. Analyzing the performance of multilayer neural networks for object recognition. In ECCV, 2014. 4.1.2

[2] S. Amari. Backpropagation and stochastic gradient descent method. Neuro-computing, 5(4 - 5):185 { 196, 1993. 2.1.5

[3] M. Andrychowicz, M. Denil, S. Gomez, M. W. Hoffman, D. Pfau, T. Schaul, and N. de Freitas. Learning to learn by gradient descent by gradient descent. In NIPS, 2016. 2.1.6

[4] L. J. Ba, R. Kiros, and G. E. Hinton. Layer normalization. arXiv, 1607.06450, 2016. 3.3.2

[5] C. L. Baker and I. Mareschal. Processing of second-order stimuli in the visual cortex. Progress in Brain Research, 134:171{91, 2001. 3.1.1, 3.1.1, 3.1.2

[6] D. Bau, B. Zhou, A. Khosla, A. Oliva, and A. Torralba. Network dissection: Quantifying interpretability of deep visual representations. In CVPR, 2017.
4.1.2, 4.2

[7] Y. Bengio, A. Courville, and P. Vincent. Representation learning: A review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(8):1798{1828, 2013. 2.1, 2.1.1

[8] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle. Greedy layer-wise training of deep networks. In NIPS, 2007. 2.1.1

[9] Y. Bengio, P. Simard, and P. Frasconi. Learning long-term dependencies with gradient descent is difficult. IEEE Transactions on Neural Networks, 5(2):157{166, 1994. 2.1.2, 2.1.2

[10] U. Bergmann, N. Jetchev, and R. Vollgraf. Learning texture manifolds with the periodic spatial GAN. In ICML, 2017. 2.1.4

[11] C. Blakemore and G. Cooper. Development of the brain depends on the visual environment. Nature, 228:477{478, 1970. 3.1.1

[12] Y. Boureau, J. Ponce, and Y. LeCun. A theoretical analysis of feature pooling in visual recognition. In ICML, 2010. 3.4.2

[13] R. M. Boynton and D. N. Whitten. Visual adaptation in monkey cones: Recordings of late receptor potentials. Science, 170(3965):1423{1426, 1970.3.3.1

[14] G. J. Brouwer and D. J. Heeger. Cross-orientation supression in human visual cortex. Journal of Neurophysiology, (106):2108{2119, 2011. 3.3.1, 3.3.1, 3.3.1

[15] J. Bruna and S. Mallat. Invariant scattering convolution networks. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35:1872-1886,
2013. 3.1.2, 3.5, 3.1.2, 3.1.2.1, 3.2.2, 3.2.2, 3.4.2, 3.5, 4.1.3, 4.2

[16] A. E. Bryson, W. F Denham, and S. E. Dreyfus. Optimal programming problems with inequality constraints. AIAA, 11:2544-2550, 1963. 2.1.5

[17] N. Buduma and N. Locascio. Fundamentals of Deep Learning: Designing Next-Generation Machine Intelligence Algorithms. O’Reilly Media, 2017. 2,
2.1, 2.2

[18] M. Carandini. What simple and complex cells compute. The Journal of Physiology, 577:463-466, 2006. 3.4.1

[19] M. Carandini and D. J. Heeger. Normalization as a canonical neural computation. Nature reviews. Neuroscience, 13:51-62, 2011. 3.3.1, 3.3.1

[20] J. Carreira and A. Zisserman. Quo vadis, action recognition? a new model and the kinetics dataset. In CVPR, 2017. 2.3.3

[21] T. H. Chan, K. Jia, S. Gao, J. Lu, Z. Zeng, and Y. Ma. PCANet: A simple deep learning baseline for image classification? Transactions of Image Processing,
24:5017-5032, 2015. 3.1.2, 3.1.2.1

[22] K. Chatfield, V. Lempitsky, A. Vedaldi, and A. Zisserman. The devil is in the details: an evaluation of recent feature encoding methods. In BMVC, 2011.
2.2.1

[23] K. Chatfield, K. Simonyan, A. Vedaldi, and A. Zisserman. Return of the devil in the details: Delving deep into convolutional nets. In BMVC, 2014. 1.1,
2.2.1, 4.1.2, 4.2

[24] L. C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. DeepLab: Semantic Image Segmentation with Deep Convolutional Nets,
Atrous Convolution, and Fully Connected CRFs. arXiv, 1606.00915, 2017.2.2.3

[25] M. Cimpoi, S. Maji, I. Kokkinos, S. Mohamed, , and A. Vedaldi. Describing textures in the wild. In CVPR, 2014. 2.1.6

[26] D-A. Clevert, T. Unterthiner, and S. Hochreiter. Fast and accurate deep network learning by exponential linear units. In ICLR, 2016. 3.2.2, 3.2.2

[27] A. Coates and A. Y. Ng. Selecting receptive fields in deep networks. In NIPS, 2011. 3.4.2

[28] T. S. Cohen and M. Welling. Steerable CNNs. In ICLR, 2017. 3.1.2, 3.1.2, 3.1.2.1, 3.5, 4.1.3

[29] J. Dai, H. Qi, Y. Xiong, Y. Li, G. Zhang, H. Hu, and Y. Wei. Deformable convolutional networks. In ICCV, 2017. 2.2.2, 2.13, 4.1.2

[30] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005. 3.4.2

[31] P. Dayan and L. F. Abbott. Theoretical Neuroscience: Computational and Mathematical Modeling of Neural Systems. The MIT Press, 2005. 3.2.1

[32] A. Dobbins, S. W. Zucker, and M. S. Cynader. Endstopped neurons in the visual cortex as a substrate for calculating curvature. Nature, 329:438-441,
1987. 3.1.1

[33] J. Donahue, L. A. Hendricks, M. Rohrbach, S. Venugopalan, S. Guadarrama, K. Saenko, and T. Darrell. Long-term recurrent convolutional networks for
visual recognition and description. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(4):677-691, 2017. 2.4, 2.3, 2.3.1, 2.16, 2.3.1

[34] J. Duchi, E. Hazan, and Y. Singer. Adaptive subgradient methods for online learning and stochastic optimization. Journal of Machine Learning Research, 12:2121-2159, 2011. 2.1.5

[35] A. Dundar, J. Jin, and E. Culurciello. Convolutional clustering for unsupervised learning. In ICLR workshops, 2016. 3.1.2

[36] D. Eigen and R. Fergus. Predicting depth, surface normals and semantic labels with a common muli-scale convolutional architecture. In ICCV, 2015. 1.1

[37] D. Erhan, Y. Bengio, A. Courville, and P. Vincent. Visualizing higher-layer features of a deep network. Technical Report 1341, University of Montreal, 4.1.1

[38] L. Fei-Fei, R. Fergus, and R. Perona. One-shot learning of object categories. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28:594-611, 2.1.6

[39] C. Feichtenhofer, A. Pinz, and R. P. Wildes. Dynamically encoded actions based on spacetime saliency. In CVPR, 2015. 2.4, 3.4.2

[40] C. Feichtenhofer, A. Pinz, and R. P. Wildes. Spatiotemporal residual networks for video action recognition. In NIPS, 2016. 2.3.3, 2.3.3

[41] C. Feichtenhofer, A. Pinz, and R. P. Wildes. Spatiotemporal multiplier networks for video action recognition. In CVPR, 2017. 2.1.6, 2.3.3, 2.3.3, 4.1.2

[42] C. Feichtenhofer, A. Pinz, and R. P. Wildes. Temporal residual networks for dynamic scene recognition. In CVPR, 2017. 2.3.2

[43] C. Feichtenhofer and A. Zisserman. Convolutional two-stream network fusion for video action recognition. In CVPR, 2016. 2.3, 2.3.3, 2.3.3

[44] J. Feng and T. Darrell. Learning the structure of deep convolutional networks. In ICCV, 2015. 3.1.2.1

[45] S. Fidler, G. Berginc, and A. Leonardis. Hierarchical statistical learning of generic parts of object structure. In CVPR, 2006. 3.1.2, 3.1.2.1

[46] S. Fidler, M. Boben, and A. Leonardis. Similarity-based cross-layered hierarchical representation for object categorization. In CVPR, 2008. 3.1.2

[47] S. Fidler and A. Leonardis. Towards scalable representations of object categories: Learning a hierarchy of parts. In CVPR, 2007. 3.1.2, 3.3

[48] J. Freeman, C. M. Ziemba, D. J. Heeger, E. P. Simoncelli, and A. J. Movshon. A functional and perceptual signature of the second visual area in primates.
Nature Neurosience, 16:974-981, 2013. 3.1.1, 3.1.1

[49] K. Fukushima. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition. Biological Cybernetics, 36:193-202, 1980.
1.1, 2.1.3, 2.6, 3.4.1, 3.4.2

[50] K. Fukushima. A neural network model for the mechanism of selective attention in visual pattern recognition. Systems and Computers in Japan, 18(1):102-113, 1987. 2.1.3

[51] K. Fukushima and N. Wake. Handwritten alphanumeric character recognition by the neocognitron. IEEE Transactions on Neural Networks, 2(3):355-365, 2.1.3

[52] R. Girshick. Fast R-CNN. In ICCV, 2015. 2.2.3, 2.15

[53] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. 2.1.6, 2.2.3, 2.15

[54] X. Glorot, A. Bordes, and Y. Bengio. Deep sparse recti er neural networks. In AISTATS, 2011. 3.2.2

[55] M. A. Goodale and A. D. Milner. Separate visual pathways for perception and action. Trends in Neurosciences, 15(1):20 - 25, 1992. 2.3.3

[56] I. J Goodfellow, Y. Bengio, and A. Courville. Deep Learning. MIT Press, 2

[57] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In NIPS. 2.1.4

[58] I. J. Goodfelow, D. Warde-Farley, M. Mirza, A. Courville, and Y. Bengio. Maxout networks. In NIPS, 2013. 3.4.2

[59] T. L. Griths and Z. Ghahramani. In nite latent feature models and the indian buet process. In NIPS, 2005. 3.1.2.1

[60] I. Hadji and R. P. Wildes. A spatiotemporal oriented energy network for dynamic texture recognition. In ICCV, 2017. 3.1.2, 3.6, 3.1.2, 3.2.2, 3.2.2, 3.3.2, 3.4.2, 3.5, 4.1.3, 4.2

[61] K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask R-CNN. In ICCV, 2017. 2.2.3, 2.15

[62] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. 3.4.2, 3.13

[63] K. He, X. Zhang, S. Ren, and J. Sun. Delving deep into recti ers: Surpassing human-level performance on imagenet classi cation. In ICCV, 2015. 3.2.2, 3.2.2

[64] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 1.1, 2.2.1, 2.10, 2.3.2

[65] D. O. Hebb. The organization of behavior: A neuropsychological theory. Wiley, New York, 1949. 3.1.1

[66] D. J. Heeger. Nonlinear model of neural responses in cat visual cortex. In M. Landy and J.A. Movshon, editors, Computational Models of Visual Processing, chapter 9, pages 119-134. MIT Press, Cambridge, 1991. 3.2.1, 3.2.2,
3.2.2, 3.3.1, 3.3.1, 3.3.1

[67] D. J. Heeger. Normalization of cell responses in cat striate cortex. Vis. Neuro., 9(2):181-197, 1992. 3.2.1, 3.2.2, 3.3.1, 3.3.1, 3.3.1, 3.4.1

[68] G. E. Hinton, S. Osindero, and Y-W. Teh. A fast learning algorithm for deep belief nets. Neural Computation, 18(7):1527-1554, 2006. 2.1.1, 2.1.1

[69] G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, pages 504-507, July 2006. 2.1.1

[70] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Computation, 9(8):1735-1780, 1997. 2.1.2

[71] T. Hong, N. Kingsbury, and M. D. Furman. Biologically-inspired object recognition system with features from complex wavelets. In ICIP, 2011. 3.1.1

[72] G. Huang, Z. Liu, L. Van der Maaten, and K. Q. Weinberger. Densely connected convolutional networks. In CVPR, 2017. 2.2.1, 2.11

[73] Y. Huang, K. Huang, L. Wang, D. Tao, T. Tan, and X. Li. Enhanced biologically inspired model. In CVPR, 2008. 3.1.1

[74] D. H. Hubel and T. N. Wiesel. Receptive elds, binocular interaction and functional architecture in the cat’s visual cortex. The Journal of Physiology, 160:106-154, 1962. 2.1.3, 3.1.1, 3.1.1, 3.2.1, 3.3.1, 3.4.1

[75] J. H. Jacobsen, J. V. Gemert, Z. Lou, and A. W.M. Smeulders. Structured receptive elds in CNNs. In CVPR, 2016. 3.1.2, 3.4, 3.1.2.1, 3.5, 4.1.3, 4.2

[76] M. Jaderberg, K. Simonyan, A. Zisserman, and K. Kavukcuoglu. Spatial transformer networks. In NIPS, 2015. 2.2.2, 2.12

[77] K. Jarrett, K. Kavukcuoglu, M. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In ICCV, 2009. 1.1, 2.1.3,
3.2.2, 3.2.2, 3.2.2, 3.3.2, 3.3.2, 3.4.2, 4.1.2, 4.2

[78] Y. Jeon and J. Kim. Active convolution: Learning the shape of convolution for image classi cation. In CVPR, 2017. 2.2.2, 4.1.2, 4.2

[79] H. Jhuang, T. Serre, L. Wolf, and T. Poggio. A biologically inspired system for action recognition. In ICCV, 2007. 3.1.1, 3.1.1, 3.1.2, 3.1.2.1, 3.4.1

[80] S. Ji, W. Xu, M. Yang, and K. Yu. 3D convolutional neural networks for human action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35:1915-1929, 2013. 2.3.2

[81] Y. Jia, C. Huang, and T. Darrell. Beyond spatial pyramids: Receptive field learning for pooled image features. In CVPR, 2012. 3.4.2

[82] X. Jin, C. Xu, J. Feng, Y. Wei, J. Xiong, and S. Yan. Deep learning with S-shaped recti ed linear activation units. In AAAI, 2016. 3.2.2, 3.2.2

[83] D. A. Kaliukhovich and R. Vogels. Divisive normalization predicts adaptationinduced response changes in macaque inferior temporal cortex. Journal of Neuroscience, (36):6116{6128, 2016. 3.3.1

[84] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classi cation with convolutional neural networks. In CVPR, 1.1, 2.3, 2.3.2

[85] K. Kavukcuoglu, M. Ranzato, and Y. LeCun. Fast inference in sparse coding algorithms with applications to object recognition. Technical Report CBLLTR-2008-12-01, Computational and Biological Learning Lab, Courant Institute, NYU, 2008. 2.1.5

[86] D. P. Kingma and J. L. Ba. Adam: A method for stochastic optimization. In ICLR, 2015. 2.1.5

[87] J. Koenderink and A. J. Van Doorn. The structure of locally orderless images. International Journal of Computer Vision, 31:159{168, 1999. 3.4.2

[88] A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classi cation with deep convolutional neural networks. In NIPS, 2012. 1.1, 2.1.3, 2.2.1, 2.8, 3.2.2,
3.3.2, 3.3.2, 3.4.2, 4.2

[89] S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR, 2006. 3.4.2, 3.4.2

[90] Y. LeCun, Y. Bengio, and G. E. Hinton. Deep learning. Nature, 521(7553):436-444, 2015. 2, 2.1

[91] Y. LeCun, L. Bottou, Y. Bengio, and P. Haner. Gradient-based learning applied to document recognition. Proceedings of IEEE, 86:2278-2324, 1998. 1.1, 2.1.3, 2.2.1, 3.1.2, 3.2.2, 3.2.2, 3.3.2, 3.3.2, 3.4.1, 3.4.2

[92] Y. LeCun, J. S. Denker, and S. A. Solla. Optimal brain damage. In NIPS, 3.1.2.1

[93] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In ISCAS, 2010. 2.5, 2.1.3

[94] C. Ledig, L. Theis, F. Huszar, J. Caballero, A. Aitken, A. Tejani, J. Totz, Z. Wang, and W. Shi. Photo-realistic single image super-resolution using a generative adversarial network. In CVPR, 2017. 2.1.4

[95] C-Y. Lee, P. Gallagher, and Z. Tu. Generalizing pooling functions in convolutional neural networks: Mixed, gated, and tree. In AISTATS, 2016. 3.4.2, 3.12

[96] M. Lin, Q. Chen, and S. Yan. Network in network. In ICLR, 2014. 2.1.6, 2.2.1, 3.4.2, 3.4.2

[97] F. Liu, C. Shen, and G. Lin. Deep convolutional neural elds for depth estimation fom a single image. In CVPR, 2015. 1.1

[98] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015. 2.2.3, 2.14

[99] D. G. Lowe. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2):91-110, 2004. 2.4, 3.4.2

[100] S. Luan, b. Zhang, C. Chen, X. Cao, J. Han, and J. Liu. Gabor convolutional networks. arXiv, 1705.01450, 2017. 3.1.2, 4.1.3

[101] S. Lyu. Divisive normalization: justi cation and electiveness as ecient coding transform. In NIPS, 2010. 3.3.2

[102] S. Lyu and E. P. Simoncelli. Nonlinear image representation using divisive normalization. In CVPR, 2008. 3.3.2, 3.3.2

[103] A. L. Maas, A. Y. Hannun, and A. Y. Ng. Recti er nonlinearities improve neural network acoustic models. In ICML, 2013. 3.2.2, 3.2.2, 3.2.2

[104] A. Mahendran and A. Vedaldi. Understanding deep image representations by inverting them. In CVPR, 2015. 1.1, 4.1.1, 4.3

[105] A. Mahendran and A. Vedaldi. Salient deconvolutional networks. In ECCV, 4.2

[106] M. Minsky and S. Papert. Perceptrons: An Introduction to Computational Geometry. MIT Press, Cambridge, MA, USA, 1969. 2.1.1

[107] P. Mishra and B. K. Jenkins. Hierarchical model for object recognition based on natural-stimuli adapted lters. In ICASSP, 2010. 3.1.1

[108] A. J. Movshon and E. P. Simoncelli. Representation of naturalistic image structure in the primate visual cortex. Cold Spring Harbor Symposia on Quantitative Biology, 79:115-122, 2014. 3.1.1

[109] A. J. Movshon, I. D. Thompson, and D. J. Tolhurst. Understanding locally competitive networks. The Journal of Physiology, 283:53 - 77, 1978. 3.2.1, 3.4.1

[110] J. Mutch and D. G. Lowe. Multiclass object recognition with sparse, localized features. In CVPR, 2006. 3.1.1, 3.4.1, 3.4.1, 3.11

[111] V. Nair and G. E. Hinton. Recti ed linear units improve restricted boltzmann machines. In ICML, 2010. 3.2.2

[112] J. Y-H. Ng, M. J. Hausknecht, S. Vijayanarasimhan, O. Vinyals, R. Monga, and G. Toderici. Beyond short snippets: Deep networks for video classi cation.
In CVPR, 2015. 2.3, 2.3.1

[113] E. Oyallon and S. Mallat. Deep roto-translation scattering for object classification. In CVPR, 2015. 3.1.2, 3.1.2.1, 4.1.3, 4.2

[114] A. Radford, L. Metz, and S. Chintala. Unsupervised representation learning with deep convolutional generative adversarial networks. In ICLR, 2016. 2.1.4

[115] S. Reed, Z. Akata, X. Yan, L. Logeswaran, B. Schiele, and H. Lee. Generative adversarial text to image synthesis. In ICML, 2016. 2.1.4

[116] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 2.2.3, 2.15

[117] M. Riesenhuber and T. Poggio. Hierarchical models of object recognition in cortex. Nature Neuroscience, 2:1019-1025, 1999. 3.1.1, 3.1, 3.2, 3.1.2, 3.4.1

[118] S. Rifai, P. Vincent, X. Muller, X. Glorot, and Y. Bengio. Contractive autoencoders: Explicit invariance during feature extraction. In ICML, 2011. 2.1.1

[119] A. Rodriguez-Sanchez, M. Fallah, and A. Leonardis. Hierarchical object representation in the visual cortex and computer vision. Frontiers in Comp. Neuro.,
9:142, 2015. 2.4

[120] A. J. Rodriguez-Sanchez and J. K. Tsotsos. The importance of intermediate representations for the modeling of 2D shape detection: Endstopping and curvature tuned computations. In CVPR, 2011. 3.1.1

[121] A. J. Rodriguez-Sanchez and J. K. Tsotsos. The roles of endstopped and curvature tuned computations in a hierarchical representation of 2D shape. PLOS ONE, 7(8):1{13, 08 2012. 3.1.1

[122] F. Rosenblatt. The perceptron{a perceiving and recognizing automaton. Technical Report 85-460-1, Cornell Aeronautical Laboratory, 1957. 2.1.1

[123] F. Rosenblatt. Principles of Neurodynamics. Spartan Books, Washington, DC, USA, 1962. 2.1.1

[124] S. Ruder. An overview of gradient descent optimization algorithms. arXiv, 1609.04747, 2016. 2.1.5

[125] D. E. Rumelhart, G .E. Hinton, and R. J. Williams. Learning representations by back-propagating errors. Nature, 323:533{536, 1986. 2.1.1, 2.1.5

[126] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3):211-252, 2015. 2.1.3, 2.2.2

[127] A. Santoro, S. Bartunov, M. Botvinick, D. Wierstra, and T. Lillicarp. Metalearning with memory augmented neural networks. In ICML, 2016. 2.1.6

[128] D. Scherer, A. Muller, and S. Behnke. Evaluation of pooling operations in convolutional architectures for object recognition. In ICANN, 2010. 3.4.2, 3.4.2

[129] I. Sergey and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. 3.3.2, 3.3.2, 3.3.2

[130] T. Serre, M. Kouh, C. Cadieu, U. Knoblich, G. Kreiman, and T. Poggio. A Theory of Object Recognition: Computations and Circuits in the Feedforward Path of the Ventral Stream in Primate Visual Cortex. Technical report, 2005. 3.1.1, 3.1.1, 3.4.1

[131] T. Serre, L. Wolf, S. Bileschi, M. Riesenhuber, and T. Poggio. Robust object recognition with cortex-like mechanisms. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29:411-426, 2007. 3.1.1, 3.1.1, 3.2, 3.1.2, 3.1.2.1, 3.4.1, 3.10, 3.4.1

[132] W. Shang, K. Sohn, D. Almeida, and H. Lee. Understanding and improving convolutional neural networks via concatenated recti ed linear units. In ICML, 3.2.2, 3.8, 3.2.2

[133] K. Simonyan, A. Vedaldi, and A. Zisserman. Deep inside convolutional networks: Visualising image classi cation models and saliency maps. In ICLR, 1.1, 4.1.1, 4.3

[134] K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. In NIPS, 2014. 2.1.6, 2.3, 2.3.3, 2.17, 4.1.2

[135] K. Simonyan and A. Zisserman. Very deep convolutional networks for largescale image recognition. In ICLR, 2015. 2.2.1, 4.1.2

[136] N. Srivastava, G. E. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dropout: A simple way to prevent neural networks from over tting. Journal of Machine Learning Research, 15(1):1929{1958, 2014. 2.2.1

[137] R. S. Sutton. Two problems with backpropagation and other steepest-descent learning procedures for networks. In Conference of the Cognitive Science So-
ciety, 1986. 2.1.5

[138] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. In CVPR, 2.2.1, 2.9

[139] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3D convolutional networks. In ICCV, 2015. 1.1, 2.3, 2.3.2

[140] J. R. Uijlings, K. E. Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. International Journal of Computer Vision, 104(2):154-
171, 2013. 2.2.3

[141] P. Vincent, H. Larochelle, Y. Bengio, and P-A. Manzagol. Extracting and composing robust features with denoising autoencoders. In ICML, 2008. 2.1.1

[142] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P-A. Manzagol. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. Journal of Machine Learning Research,
11:3371{3408, 2010. 2.1.1

[143] L. Wang, Y. Qiao, and X. Tang. Action recognition with trajectory-pooled deep-convolutional descriptors. In CVPR, 2015. 2.3.3

[144] L. Wang, Y. Xiong, Z. Wang, Y. Qiao, D. Lin, X. Tang, and L. Van Gool. Temporal segment networks: Towards good practices for very deep two-stream convnets. In ECCV, 2016. 2.1.6, 2.3.3, 2.3.3, 4.1.2

[145] H. Wei and Z. Dong. V4 neural network model for visual saliency and discriminative local representation of shapes. In IJCNN, 2014. 3.1.1

[146] P. Werbos. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. PhD thesis, Harvard University, 1974. 2.1.5

[147] K. Woodbeck, G. Roth, and H. Chen. Visual cortex on the GPU: Biologically inspired classi er and feature descriptor for rapid recognition. In CVPR workshops, 2008. 3.1.1

[148] D. E. Worrall, S. J. Garbin, D. Turmukhambetov, and G. J. Brostow. Harmonic networks: Deep translation and rotation equivariance. In CVPR, 2017. 3.1.2, 3.5, 4.1.3

[149] R. A. Yeh, C. Chen, T. Y. Lim, A. G. Schwing, M. Hasegawa-Johnson, and M. N. Do. Semantic image inpainting with deep generative models. In CVPR, 2.1.4

[150] J. Yosinski, J. Clune, Y. Bengio, and H. Lipson. How transferable are features in deep neural networks? In NIPS, 2014. 2.1.6

[151] J. Yosinski, J. Clune, A. Nguyen, T. Fuchs, and H. Lipson. Understanding neural networks through deep visualization. In ICML workshops, 2015. 4.1.1,
4.1.1, 4.1.1

[152] M. D. Zeiler. Adadelta: An adaptive learning rate method. arXiv, 1212.5701, 2.1.5

[153] M. D. Zeiler and R. Fergus. Stochastic pooling for regularization of deep convolutional neural networks. In ICLR, 2013. 3.4.2

[154] M. D. Zeiler and R. Fergus. Visualizing and understanding convolutional networks. In ECCV, 2014. 1.1, 2.1.6, 2.2.1, 4.1.1, 4.1, 4.2, 4.1.2

[155] J. Zhang, Y. Barhomi, and T. Serre. A new biologically inspired color image descriptor. In ECCV, 2012. 3.1.1

[156] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Object detectors emerge in deep scene cnns. In ICLR, 2014. 4.1.1

[157] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba. Learning Deep Features for Discriminative Localization. In CVPR, 2016. 4.1.1

[158] Y. Zhou, Q. Ye, Q. Qiu, and J. Jiao. Oriented response networks. In CVPR, 3.1.2, 4.1.3

[159] C. Zzegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS, 2013. 1.1

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值