二十八章：理解深度卷积神经网络中的有效感受野

Joney Feng

已于 2023-08-03 12:18:42 修改

阅读量489

点赞数

文章标签： cnn 深度学习人工智能

于 2023-07-21 11:19:22 首次发布

本文链接：https://blog.csdn.net/ADICDFHL/article/details/131847295

版权

原文信息

原文题目：《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》

原文引用：Luo W, Li Y, Urtasun R, et al. Understanding the effective receptive field in deep convolutional neural networks[J]. Advances in neural information processing systems, 2016, 29.

原文链接：https://proceedings.neurips.cc/paper/2016/file/c8067ad1937f728f51288b3eb986afaa-Paper.pdfhttps://proceedings.neurips.cc/paper/2016/file/c8067ad1937f728f51288b3eb986afaa-Paper.pdf

0.摘要

我们研究了深度卷积网络中单元的感受野特性。感受野大小在许多视觉任务中是一个关键问题，因为输出必须对图像中足够大的区域作出响应，以捕捉关于大型物体的信息。我们引入了有效感受野的概念，并展示它既具有高斯分布，又仅占据了完整理论感受野的一部分。我们分析了几种架构设计中的有效感受野，以及非线性激活、随机失活、子采样和跳跃连接对其的影响。这为解决有效感受野过小的倾向提供了建议。

1.引言

在过去几年中，深度卷积神经网络（CNN）在各种问题上取得了巨大的成功。在本文中，我们主要关注它们在计算机视觉领域的应用：它们是推动许多任务的最新技术的显著改进的驱动力，包括图像识别[10,8]、目标检测[17,2]、语义分割[12,1]、图像字幕生成[20]等等。

深度卷积神经网络中的一个基本概念是每个层中的单元的感受野或视野。与全连接网络不同，在全连接网络中，每个单元的值取决于网络的整个输入，而在卷积网络中，每个单元只依赖于输入的一个区域。这个区域就是该单元的感受野。

理解和诊断深度卷积神经网络的工作原理，感受野的概念非常重要。由于在单元的感受野之外的输入图像的任何位置都不会影响该单元的值，因此有必要仔细控制感受野，确保其覆盖整个相关图像区域。在许多任务中，特别是像语义图像分割、立体图像和光流估计等密集预测任务中，我们对输入图像中的每个像素进行预测，每个输出像素拥有一个大的感受野至关重要，以确保在进行预测时不会遗漏重要信息。

单元的感受野大小可以通过多种方式增加。一种方法是堆叠更多的层，使网络更深，这理论上会线性增加感受野大小，因为每一层额外增加了内核大小的感受野尺寸。另一方面，子采样会以乘法方式增加感受野大小。现代深度卷积神经网络架构，如VGG网络[18]和残差网络[8,6]，使用了这些技术的组合。

在本文中，我们仔细研究了深度卷积神经网络的感受野，重点关注具有许多输出单元的问题。特别地，我们发现并非感受野中的所有像素对输出单元的响应贡献相同。直观上很容易看出，感受野中心的像素对输出有更大的影响。在前向传播中，中心像素可以通过许多不同的路径将信息传递到输出，而感受野外部区域的像素则只有很少的路径来传播其影响。在反向传播中，输出单元的梯度沿着所有路径传播，因此中心像素对该输出的梯度具有更大的幅度。

这一观察结果促使我们进一步研究感受野中对输出的影响分布。令人惊讶的是，我们可以证明在许多情况下，感受野中的影响分布符合高斯分布。需要注意的是，在之前的工作中[20]，在使用关于感受野的高斯假设时并没有进行合理的解释。这一结果进一步导致了一些有趣的发现，特别是有效区域在感受野中，我们称之为有效感受野，只占据了理论感受野的一部分，因为高斯分布通常从中心迅速衰减。

我们为有效感受野所开发的理论与一些经验观察结果也有很好的相关性。其中一个经验观察结果是，目前常用的随机初始化方法导致一些深度卷积神经网络在开始训练时具有较小的有效感受野，然后在训练过程中逐渐增大。这可能表明存在初始化偏差。

下面我们将在第2节介绍理论，并在第3节介绍一些经验观察结果，旨在理解深度卷积神经网络的有效感受野。在第4节中，我们将讨论一些增加有效感受野大小的潜在方法。

2.有效感受野的特征

我们希望在数学上描述感受野中的每个输入像素对网络中第n层单元的输出有多大影响，并研究这种影响在输出单元的感受野中是如何分布的。为了简化符号，我们仅考虑每个层上的单个通道，但类似的结果可以很容易地推导出适用于具有更多输入和输出通道的卷积层。

假设每个层上的像素以(i;j)索引，其中心位于(0;0)。用xp i;j表示第p层上的第(i;j)个像素，其中x0 i;j表示网络的输入，yi;j =xn i;j表示第n层上的输出。我们想要衡量每个x0 i;j对y0;0的贡献程度。我们将中心输出单元的有效感受野(ERF)定义为包含对该单元具有非可忽略影响的任何输入像素的区域。

本文中我们使用的影响度量是偏导数@y0;0=@x0 i;j。它衡量了当x0 i;j发生微小变化时，y0;0的变化程度；因此，它是衡量x0 i;j相对于y0;0重要性的自然度量。然而，这个度量不仅依赖于网络的权重，而且在大多数情况下也与输入相关，因此我们的大部分结果将以输入分布的期望形式呈现。

可以使用反向传播算法计算偏导数@y0;0=@x0 i;j。在标准设置中，反向传播算法将梯度误差传播到特定损失函数。假设我们有一个任意的损失函数l，根据链式法则，我们有@x@l 0 i i;j =Pi0;j0 @y@l i0;j0 @y @xi00 i;j ;j0 。

为了得到@y0;0=@x0 i;j的量，我们可以设置误差梯度@l=@y0;0 =1和@l=@yi;j =0 6=0和j 6 ;j对于所有i 6=0和j 6=0，然后将这个梯度从那里向下传播到网络中。得到的@l=@x0 i;j等于所需的@y0;0=@x0 i;j。在这里，我们使用了没有明确损失函数的反向传播过程，这个过程可以很容易地使用标准的神经网络工具实现。

接下来，我们首先考虑线性网络，其中该导数不依赖于输入，纯粹是网络权重和(i;j)的函数，清楚地显示了感受野中像素的影响如何分布。然后，我们继续考虑更现代的架构设计，并讨论非线性激活、dropout、子采样、扩张卷积和跳跃连接对有效感受野的影响。

2.1.最简单的是一堆卷积层，其权重全部为1

考虑使用k×k核、步长为1的n个卷积层的情况，每层都只有一个通道且没有非线性激活函数，堆叠成一个深度线性卷积神经网络。在这个分析中，我们忽略了所有层的偏置项。我们首先分析权重都等于1的卷积核。

将g(i;j;p)=@l=@xp i;j表示为第p层的梯度，并将g(i;j;n)=@l=@yi;j表示为g(i;j;0)是输入的期望梯度图像。反向传播过程有效地将g(i;j;p)与k×k的核进行卷积，对于每个p得到g(i;j;p-1)。在这种特殊情况下，核是一个由1组成的k×k矩阵，因此2D卷积可以分解为两个1D卷积的乘积。因此，我们只关注1D情况。我们有初始梯度信号u(t)和核v(t)的形式定义如下：

我们可以看到，o(t)实际上是在展开式Pk m−=0 1 e−j!mn中e−j!t的系数。对于k = 2的情况，我们考虑最简单的非平凡情况，其中Pk m−=0 1 e−j!mn =(1 +e−j!)n。e−j!t的系数是标准的二项式系数nt，因此o(t)=nt。众所周知，当n变大时，二项式系数在t方向上的分布类似于高斯分布（参见例如[13]），这意味着当t偏离中心时，系数的尺度以二次指数衰减。当将两个1D高斯函数相乘时，我们得到一个2D高斯函数，因此在这种情况下，输入平面上的梯度分布类似于一个2D高斯函数。对于k > 2的情况，这些系数被称为“扩展二项式系数”或“多项式系数”，它们也像高斯分布一样分布，参见例如[3,16]。这作为更一般情况的特例包含在后面第2.3节中。

2.2.随机权重

现在让我们考虑随机权重的情况。一般来说，我们有以下情况：

为了清晰起见，像素索引进行了适当的移动，wa;b p 是第p层卷积核中位置(a;b)上的卷积权重。在每一层，初始权重是从一个固定分布中独立抽取的，该分布具有零均值和方差C。我们假设梯度g与权重是独立的。这个假设在网络中包含非线性时通常是不成立的，但对于线性网络，这些假设是成立的。由于Ew[wa;b p ] = 0，我们可以计算期望值：

在这里，期望是对于权重分布和输入数据分布进行的。方差更有趣，因为：

这相当于将梯度方差图像Var[g(;;p)]与一个由1组成的k×k卷积核进行卷积，然后乘以C以得到Var[g(;;p −1)]。基于这一点，我们可以对梯度方差图像应用与第2.1节中完全相同的分析。结论很容易得出，Var[g(:;:;0)]具有高斯形状，只是在方差梯度图像上多了一个额外的Cn常数因子乘法器，这不会影响感受野内的相对分布。

2.3.非均匀卷积核

更一般地说，卷积核窗口中的每个像素可以具有不同的权重，或者在随机权重的情况下，它们可能具有不同的方差。让我们再次考虑1D情况，u(t)=δ(t)，以及卷积核信号v(t)=Pk m−=0 1 w(m)δ(t −m)，其中w(m)是卷积核中第m个像素的权重。不失一般性，我们可以假设权重已经归一化，即∑m w(m)=1。应用傅里叶变换和卷积定理，我们得到：

空间域信号o(t)仍然是展开中e−j!t的系数；唯一的区别是e−j!m项会被w(m)加权。这些系数在组合数学文献中得到了深入研究，更多细节可以参考[3]和其中的参考文献。在[3]中，证明了如果w(m)已经归一化，则o(t)恰好等于概率p(Sn = t)，其中Sn = Pn i=1 Xi，Xi是按照w(m)分布的独立同分布的多项式变量，即p(Xi = m) = w(m)。注意，该分析要求w(m)>0。但是对于随机权重情况下的方差分析，我们可以将权重始终保持为非负，而权重可以为负。对于负的w(m)的分析更加困难，留待进一步研究。然而，凭经验我们发现，本节分析的结论仍然适用于具有负权重的网络。从中心极限定理的角度来看，当n趋向于无穷大时，pn(n1 Sn −E[X])N(0;Var[X])n的分布趋于Gaussian N(0;Var[X])。这意味着，对于足够大的给定n，Sn的分布将近似为均值为nE[X]，方差为nVar[X]的高斯分布。由于o(t)=p(Sn = t)，这进一步意味着o(t)也呈现高斯形状。当w(m)已经归一化时，这个高斯分布具有以下均值和方差：

这表明o(t)根据高斯分布以中心感受野为中心呈指数衰减。衰减速率与此高斯分布的方差有关。如果我们将一个标准差作为有效感受野（ERF）的大小，这大致是ERF的半径，那么这个大小就是pVar[Sn]=pnVar[Xi]=O(pn)。另一方面，随着我们堆叠更多的卷积层，理论上的感受野线性增长，因此相对于理论感受野，实际的ERF实际上以O(1/pn)的速率缩小，这让我们感到惊讶。在均匀加权的简单情况下，我们还可以看到ERF的大小与卷积核大小k呈线性增长。由于w(m)=1/k，我们有：

备注：本节推导的结果，即在深度卷积神经网络中感受野内的影响分布收敛于高斯分布，在以下条件下成立：

（1）CNN中的所有层使用相同的卷积权重集。一般情况下不成立，但当我们应用方差分析时，所有层的权重方差通常是相同的，只相差一个常数因子。

（2）收敛是“在分布”意义上的收敛，正如中心极限定理所暗示的那样。这意味着累积概率分布函数收敛于高斯分布，但在空间中的任何单一点上，概率可能会偏离高斯分布。

（3）收敛结果表明，pn(n1 Sn−E[X])收敛于N (0;Var[X])，因此Sn趋向于N (nE[X];nVar[X])，然而N (nE[X];nVar[X])n中的Sn的收敛并没有明确定义，因为N (nE[X];nVar[X])不是一个固定的分布，而是随着n的变化而变化。

此外，Sn的分布在有限集上可能与高斯分布偏离。但总体上，分布的形状仍然近似为高斯分布。

2.4.非线性激活函数

非线性激活函数是每个神经网络的重要组成部分。我们用σ表示任意的非线性激活函数。在前向传递过程中，每一层的像素首先经过σ函数，然后与卷积核进行卷积来计算下一层。这种操作顺序有点非标准，但与先进行卷积再经过非线性激活的更常见操作等效，并且使得分析稍微容易一些。在这种情况下，反向传递变为：

在这里，我们稍微滥用了符号，并使用σp i i;j 0表示层p上像素(i;j)的激活函数的梯度。对于ReLU非线性激活函数，σi;j p 0 =I[xp i;j >0]，其中I[:]是指示函数。除了假设xp i;j具有零均值和单位方差之外，我们还需要对激活值xp i;j做一些额外的假设才能推进分析。一个标准的假设是xp i;j围绕0有一个对称分布[7]。如果我们再做一个简化假设，即梯度σ0与上层的权重和g独立，我们可以简化方差为Var[g(i;j;p −1)]=E[σi;j p 02]Pa Pb Var[wa;b p ]Var[g(i +a;i +b;p)]，其中E[σi;j p 02]=Var[σi;j p 0]=1/4是一个常数因子。在方差分析后，我们可以再次将这种情况简化为均匀权重的情况。Sigmoid和Tanh非线性激活函数更难分析。在这里，我们只使用一个观察结果，即当网络初始化时，权重通常很小，因此这些非线性激活函数处于线性区域，线性分析适用。然而，随着训练过程中权重的增大，它们的影响变得难以分析。

2.5.随机失活、子采样、扩张卷积、跳跃连接

在这里，我们考虑一些常见的CNN方法对有效感受野的影响。Dropout是一种常用的防止过拟合的技术；我们展示了dropout不会改变高斯感受野的形状。子采样和扩张卷积被证明是快速增加感受野尺寸的有效方法。而跳跃连接则会使感受野变小。我们在附录中对所有这些情况进行了分析。

3.实验

在本节中，我们通过实证研究不同深度CNN架构的有效感受野（ERF）。我们首先使用人工构建的CNN模型来验证我们分析中的理论结果。然后，我们提出了在实际数据集上训练深度CNN时ERF如何变化的观察结果。对于所有的ERF研究，我们在输出平面的中心放置梯度信号为1，其他地方为0，然后通过网络反向传播这个梯度来得到输入的梯度。

3.1.验证理论结果

我们首先在人工构建的深度CNN中验证我们的理论结果。为了计算ERF，我们使用随机输入，并且对于所有的随机权重网络，我们遵循[7,5]进行适当的随机初始化。在本节中，我们验证以下结果：

ERF（Effective Receptive Field）是高斯分布的：如图1所示，我们可以观察到在没有非线性激活函数的均匀和随机加权卷积核中，ERF呈现出完美的高斯形状；而在具有非线性激活函数的随机加权核中，ERF呈现出接近高斯的形状。添加ReLU非线性激活函数会使分布稍微偏离高斯分布，因为ERF分布还取决于输入。另一个原因是ReLU单元对于一半的输入输出为零，而对于输出平面上的中心像素来说，很容易得到零输出，这意味着感受野无法到达输出，因此梯度全为零。这里的ERF是在具有不同随机种子的20次运行中进行平均的。右侧的图显示了具有20层随机权重网络的ERF，其中使用了不同的非线性激活函数。在这个设置中，感受野更接近高斯分布，这是通过对100次随机权重和不同随机输入进行平均得到的结果。

在图2中，我们展示了ERF尺寸的变化以及ERF相对于理论RF的相对比例与卷积层数的关系。ERF尺寸的最佳拟合线在对数域内的斜率为0.56，而ERF比例的线斜率为-0.43。这表明ERF尺寸与pN成线性增长，而ERF比例与p1N成线性收缩。在这里，我们使用2个标准差作为ERF尺寸的测量，即任何像素值大于1-95:45%的中心点被认为在ERF中。ERF尺寸由ERF内的像素数量的平方根表示，而理论RF尺寸是一个正方形的边长，其中所有像素对输出像素都有非零影响，无论多么小。所有的实验都是在20次运行中进行平均的，子采样和扩张卷积增加了感受野：右侧的图显示了子采样和扩张卷积的效果。参考基准是一个具有15个稠密卷积层的卷积网络。它的ERF显示在最左边的图中。然后我们用步长为2的卷积替换15个卷积层中的3个，得到“子采样”图的ERF，并用因子2、4和8的扩张卷积替换它们得到“扩张”图的ERF。正如我们所看到的，这两种方法都能显著增加有效感受野。请注意，“扩张”图显示了扩张卷积的典型矩形ERF形状。

图1：比较卷积层数、随机权重初始化和非线性激活对ERF的影响。在这里，所有网络的卷积核大小都固定为3×3。Uniform：卷积核权重都是1，没有非线性激活；Random：随机卷积核权重，没有非线性激活；Random + ReLU：随机卷积核权重，ReLU非线性激活。

3.2.训练过程中ERF的演化情况

在这部分中，我们看看分类CNN和语义分割CNN中最顶层卷积层单元的ERF在训练过程中如何变化。对于这两个任务，我们采用了ResNet架构，该架构广泛使用了跳跃连接。正如分析所显示的，该网络的ERF应该明显小于理论上的感受野。这确实是我们最初观察到的情况。有趣的是，随着网络的学习，ERF变得更大，并且在训练结束时明显大于初始的ERF。

对于分类任务，我们在CIFAR-10数据集上训练了一个具有17个残差块的ResNet。在训练结束时，该网络的测试准确率达到了89%。需要注意的是，在这个实验中我们没有使用池化或下采样，而是专注于具有跳跃连接的架构。网络的准确率虽然不是最先进的，但仍然相当高。在图3中，我们展示了训练开始时（具有随机初始化权重）和训练结束时（达到最佳验证准确率时）在32×32图像空间上的有效感受野。需要注意的是，我们网络的理论感受野实际上是74×74，比图像尺寸更大，但ERF仍然无法完全填充图像。通过比较训练前后的结果，我们可以看到有效感受野显著增长了。

对于语义分割任务，我们使用了CamVid数据集进行城市场景分割。我们训练了一个“前端”模型[21]，它是一个纯卷积网络，以稍低的分辨率预测输出。这个网络在许多先前的工作中扮演了和VGG网络相同的角色[12]。我们训练了一个具有16个残差块的ResNet，其中每个块之间插入了4个因子为2的子采样操作。由于这些子采样操作，输出尺寸是输入尺寸的1/16。对于这个模型，顶层卷积层单元的理论感受野非常大，为505×505。然而，如图3所示，训练开始时ERF只有100的直径，只是理论感受野的一小部分。同样，我们观察到在训练过程中ERF的尺寸增加，并且在结束时几乎达到了150的直径。

图2：ERF的绝对增长（左）和相对收缩（右）

图3：在CIFAR-10分类和CamVid语义分割任务上训练的模型的训练前后的ERF比较。CIFAR-10的感受野在32×32的图像空间中可视化。

4.减少高斯损伤

上述分析显示，ERF只占据了理论感受野的一小部分，这对于需要较大感受野的任务是不理想的。

新的初始化方法。增加有效感受野的一种简单方法是调整初始权重。我们提出了一种新的随机权重初始化方案，使卷积核中心的权重具有较小的尺度，而外部的权重较大；这将中心的集中度扩散到外围。实际上，我们可以使用任何初始化方法初始化网络，然后根据一个分布来缩放权重，该分布在中心具有较小的尺度，在外部具有较大的尺度。

在极端情况下，我们可以优化w(m)以最大化ERF的大小，或者等效地最大化方程10中的方差。解决这个优化问题会得到一个解，将权重均匀地放置在卷积核的4个角上，而其他地方的权重都为0。然而，使用这个解来进行随机权重初始化过于激进，让很多权重变为0会导致学习变慢。通常，这个思想的一个较为缓和的版本效果更好。

我们使用这种初始化方法对CIFAR-10分类任务进行了多次训练，使用了几个随机种子。在一些情况下，与更标准的初始化方法[5,7]相比，我们的训练速度提高了30%。但总体而言，这种方法的好处并不总是显著的。我们注意到，无论我们如何改变w(m)，有效感受野仍然呈高斯分布，因此上述提议只能部分解决问题。

架构变化。一个可能更好的方法是对CNN进行架构上的改变，这可能以更基本的方式改变ERF。例如，我们可以不再将CNN中的每个单元连接到一个局部矩形卷积窗口，而是使用相同数量的连接将每个单元稀疏地连接到较低层的更大区域。扩张卷积[21]属于这一类别，但我们可以进一步推进，使用不规则的稀疏连接。

5.讨论

与生物神经网络的连接。在我们的分析中，我们已经确定深度CNN中的有效感受野实际上增长得比我们过去认为的要慢得多。这表明，即使经过多个卷积层，许多局部信息仍然得到保留。这一发现与深度生物网络中的一些长期存在的相关概念相矛盾。哺乳动物视觉系统的一个流行的描述涉及“是什么”和“在哪里”之间的分裂通路[19]。沿着“是什么”或“在哪里”通路的进展，连接性的性质逐渐发生变化：感受野的大小增加，空间组织变得更加松散，直到没有明显的视网膜映射组织；视网膜映射的丧失意味着单个神经元对于视野中的对象（例如脸部）可以在任何位置做出反应[9]。然而，如果有效感受野小于感受野，这表明表示可能保留了位置信息，并且还引发了关于这些领域在发育过程中大小变化的有趣问题。

我们分析的第二个相关效果是，它表明卷积网络可能会自动创建一种中央凹表征形式。人类视网膜的中央凹从图像中只提取中心像素附近的高分辨率信息。等分辨率的子区域被排列在一起，它们的大小随着距离固定点中心的距离增加。在视网膜的外围，从图像的较大区域提取低分辨率信息。一些神经网络已经明确构建了这种形式的表示[11]。然而，由于卷积网络形成的是高斯感受野，底层的表示自然具有这种特征。

与之前关于CNN的工作的联系。尽管CNN中的感受野尚未得到广泛研究，但[7,5]进行了类似的分析，计算出网络中方差的演化。他们提出了一个良好的初始化方案，遵循方差在网络中变化不大的原则，用于卷积层。研究人员还利用可视化技术来理解神经网络的工作原理。[14]展示了使用自然图像先验以及卷积层激活的表示的重要性。[22]使用反卷积网络展示了图像中像素与激活的神经元之间的关系。[23]进行了涉及感受野的实证研究，并将其用作定位的线索。还有使用梯度上升技术进行可视化研究[4]，生成有趣的图像，例如[15]。这些研究都集中在单元激活或特征图上，而不是我们在这里研究的有效感受野。

6.总结

在本文中，我们仔细研究了深度CNN中的感受野，并建立了关于有效感受野大小的一些令人惊讶的结果。特别是，我们已经证明了感受野内的影响分布渐近地呈高斯分布，而有效感受野只占据了理论感受野的一部分。实证结果与我们建立的理论相吻合。我们相信这只是对有效感受野研究的一个开端，它提供了一种理解深度CNN的新角度。未来，我们希望进一步研究实践中影响有效感受野的因素，以及如何更好地对其进行控制。