【读点论文】ESPNetv2: A Light-weight, Power Efficient, GeneralPurposeConvolutionalNeuralNetwork改V1,降低卷积运算

最新推荐文章于 2024-04-19 09:38:48 发布

羞儿

最新推荐文章于 2024-04-19 09:38:48 发布

阅读量661

点赞数 2

分类专栏：论文笔记文章标签：深度学习人工智能神经网络语义分割轻量化网络

本文链接：https://blog.csdn.net/weixin_43424450/article/details/126874383

版权

论文笔记专栏收录该内容

135 篇文章 31 订阅

订阅专栏

ESPNetv2: A Light-weight, Power Efficient, and General Purpose Convolutional Neural Network

Abstract

本文介绍了一种轻量级、节能和通用的卷积神经网络ESPNetv2，用于建模可视化和顺序数据。本文的网络使用逐点向和深度向扩展的可分离卷积，以较少的FLOPs和参数从一个较大的有效接收域学习表示。我们的网络的性能在四个不同的任务上进行了评估:(1)对象分类，(2)语义分割，(3)对象检测，(4)语言建模。在这些任务上的实验，包括在ImageNet上的图像分类和在PenTree bank数据集上的语言建模，证明了本文的方法比目前最先进的方法更优越的性能。
本文的网络性能比ESPNet高出4-5%，在PASCAL VOC和cityscape数据集上的FLOPs次数减少了2 - 4倍。与YOLOv2相比，ESPNetv2在MS-COCO对象检测上的准确率提高了4.4%，FLOPs次数减少了6倍。本文的实验表明，ESPNetv2比现有的最先进的高效方法(包括shufflenet和mobilenet)更节能。本文的代码是开源的，可以在 https://github.com/sacmehta/ ESPNetv2
论文地址：[1811.11431] ESPNetv2: A Light-weight, Power Efficient, and General Purpose Convolutional Neural Network (arxiv.org)

Introduction

gpu的可编程性和计算能力的提高加速了深度卷积神经网络(CNNs)用于可视化数据建模的发展[Deep residual learning for image recognition,Imagenet classification with deep convolutional neural networks,Regularizing and optimizing lstm language models]。cnn被用于现实世界的视觉识别应用，如视觉场景理解和生物医学图像分析。许多现实世界中的应用程序，如自动驾驶汽车和机器人，都运行在资源受限的边缘设备上，并要求以低延迟在线处理数据。
现有的基于cnn的视觉识别系统需要大量的计算资源，包括内存和功率。虽然它们在基于gpu的高端机器(例如NVIDIA TitanX)上实现了高性能，但对于资源受限的边缘设备(如手机和嵌入式计算平台)来说，它们通常太昂贵了。例如，ResNet-50是最著名的图像分类CNN架构之一，它有2556万个参数(98 MB内存)，对一幅图像进行28亿次高精度的分类操作。对于更深层次的cnn，例如ResNet101，这些数字甚至更高。这些模型很快就会使边缘设备上有限的资源不堪重负，包括计算能力、内存和电池。因此，在边缘设备上运行的真实世界应用的cnn应该是轻量级和高效的，同时提供高精度。
在这之前轻量级网络的努力可以大致分为以下几种:
- (1)基于网络压缩的方法在预先训练的模型中去除冗余，以提高效率。这些模型通常通过不同的参数剪枝技术实现[Constrained optimization based low-rank approximation of deep neural networks,Learning structured sparsity in deep neural networks]。
- (2)基于低位表示的方法使用少数位代替高精度浮点来表示学习到的权值[Quantized neural networks: Training neural networks with low precision weights and activations,Xnor-net,Expectation backpropagation: Parameter-free training of multilayer neural networks with continuous or discrete weights]。这些模型通常不会改变网络的结构，卷积操作可以使用逻辑门来实现，从而在cpu上实现快速处理。
- (3)轻量化CNNs通过分解计算昂贵的卷积运算来提高网络的效率。这些模型的设计在计算上是高效的，即底层模型结构学习的参数更少，浮点运算(FLOPs)也更少。
在本文中，本文介绍了一个轻量级的架构，ESPNetv2，它可以很容易地部署在边缘设备上。本文的主要贡献有:
- (1)提供了一种通用架构，可以高效地对可视化数据和顺序数据进行建模。本文演示了网络跨不同任务的性能，从对象分类到语言建模。
- (2)提出的ESPNetv2架构扩展了基于扩展卷积的分割网络ESPNet，具有深度可分离卷积;一种高效的卷积形式，用于包括mobilenet和shufflenet在内的最先进的高效网络。与深度可分卷积相比，深度扩张可分卷积将ESPNetv2的准确率提高了1.4%。与ESPNet的扩展卷积(69.2,426 MFLOPs)相比，ESPNetv2在使用更少的FLOPs时获得了更好的精度(72.1,284 MFLOPs)。
- (3)实证结果表明，ESPNetv2在不同的视觉识别任务中以更少的FLOPs次数提供了相似或更好的性能。在ImageNet分类任务上，本文的模型在效率和准确性方面优于之前所有的高效模型设计，特别是在计算预算较小的情况下。例如，本文的模型在28 MFLOPs的计算预算下比MobileNetv2的性能高出2%。对于PASCAL VOC和cityscape数据集上的语义分割，ESPNetv2比ESPNet性能好4-5%，FLOPs次数少2 - 4倍。对于对象检测，ESPNetv2的性能比YOLOv2高出4.4%，FLOPs次数减少了6倍。本文还研究了一种具有热重启的循环学习率调度器。本文的结果表明，该调度器是更有效的标准固定学习率调度器。
- 通用的轻量化网络结构，能够支持视觉数据以及序列化数据，即能支持视觉任务和自然语言处理任务。
- 在ESPNet基础上，加入深度可分离空洞卷积进行拓展，相对于ESPNet拥有更好的精度以及更少的参数。
- 从实验来看，ESPNetv2在多个视觉任务上有较好的准确率和较低的参数量，任务包括图像分类、语义分割、目标检测。
- 设计了cyclic learning rate scheduler，比一般的固定学习率的scheduler要好。

Related Work

Efficient CNN architectures:
- 大多数最先进的高效网络[Mobilenets,Shufflenet v2,Mobilenetv2]使用深度可分离卷积[Mobilenets]，将卷积分解为两个步骤来降低计算复杂度:(1)深度卷积，通过对每个输入通道应用单个卷积核来执行轻量级滤波;(2)点卷积，通常通过学习输入通道的线性组合来沿着通道扩展特征映射。高效网络[Condensenet,Shufflenet]中使用的另一种有效的卷积形式是组卷积[Alexnet]，其中输入通道和卷积核被分解成组，每个组独立进行卷积。ESPNetv2网络使用这些有效的卷积形式扩展了ESPNet网络。为了从一个大的有效感受野学习表示，ESPNetv2使用深度“扩张”的可分离卷积，而不是深度可分离卷积。
- 除了卷积分解外，还可以通过信道混洗和信道分裂[29]等方法进一步提高网络的效率和准确性。这种方法与我们的工作无关。
Neural architecture search:
- 这些方法使用包含不同参数的预定义字典在巨大的网络空间中搜索，包括不同的卷积层、不同的卷积单元和不同的滤波器大小[ProxylessNAS,Mnasnet，Fbnet]。本文相信这些方法将提高ESPNetv2的性能，并且是我们工作的补充。
Network compression:
- 这些方法通过修剪网络连接或通道来改进预训练网络的推理。这些方法是有效的，因为cnn有大量的冗余权值。大多数这些方法的效率提高是由于参数的稀疏性，并且由于查找和数据迁移操作的成本，很难在cpu上有效地实现。这些方法与本文的网络是互补的。
Low-bit representation:
- 另一种改进预训练网络推理的方法是使用量化的低比特表示网络权值。这些方法使用更少的比特来表示预先训练的网络的权值，而不是使用32位高精度浮点数。与基于网络压缩的方法类似，这些方法对本文的工作是互补的。

ESPNetv2

本节详细介绍ESPNetv2架构。本文首先描述深度扩张可分离卷积，使本文的网络从一个大有效的感受野有效地学习表征。然后，本文描述了ESPNetv2网络的核心单元，即使用组逐点卷积和深度扩张可分离卷积构建的esp单元。

Depth-wise dilated separable convolution

卷积分解是许多高效架构所使用的关键原理。其基本思想是用因数分解的版本替换完整的卷积运算，如深度可分卷积或组卷积。在本节中，本文将描述深度扩张可分离卷积，并与其他类似的有效卷积形式进行比较。
标准卷积对输入 $X∈\Bbb R^{W ×H×c}$ 与卷积核 $K∈\Bbb R^{n×n×c×\hat{c}}$ 进行卷积，通过从n×n的有效接收域学习 $n^2c\hat{c}$ 参数，产生输出 $Y∈\Bbb R^{W ×H×\hat{c}}$ 。与标准卷积相比，深度扩展可分离卷积应用轻量级滤波，通过将标准卷积分解为两层:1)每个输入通道的深度扩展卷积，膨胀率为r;使卷积从nr × nr的有效接收域学习表示，其中nr = (n−1)·r + 1和2)点卷积学习输入的线性组合。
这种因子分解减少了 $\frac{n^2c\hat{c}}{n^2c+c\hat{c}}$ 的计算成本。下表提供了不同类型卷积的比较。深度扩张可分离卷积是有效的，可以从大的有效接受域学习表征。
- 不同类型卷积的比较。其中n×n为内核大小，nr = (n−1)·r +1, r为膨胀速率，c和ˆc分别为输入通道和输出通道，g为组数。

EESP unit

利用深度扩张可分卷积和逐点卷积的优点，本文引入了一种新的单元EESP，即深度扩张可分卷积的极高效空间金字塔，专门用于边缘器件。本文的网络设计的动机是ESPNet架构，一个最先进的高效分割网络。ESPNet架构的基本构建模块是ESP模块，如下图a所示。
- 该图可视化了ESPNet的构建模块，ESP单元在(a)， ESPNetv2, ESP单元在(b-c)。本文注意到(b-c)中的esp单位在计算复杂度方面是等价的。每个卷积层(convn -n: n × n标准卷积、gconvn -n: n × n群卷积、dconvn -n: n × n膨胀卷积、ddconvn -n: n × n深度膨胀卷积)用(#输入通道、#输出通道、#膨胀率)表示。在HFF之后使用(b)的点卷积或©的逐点卷积来学习输入之间的线性组合。
它基于减少-分裂-转换-合并策略。ESP单元首先使用点卷积将高维输入特征映射投影到低维空间，然后使用不同膨胀率的膨胀卷积并行学习表示。每个分支的不同扩张速率允许ESP单元从一个大的有效接收野学习表征。这种分解，尤其是在低维空间中学习表示，使ESP单元变得高效。
为了提高ESP模块的计算效率，本文首先将逐点卷积替换为组逐点卷积。然后，本文将计算昂贵的3 × 3扩张卷积替换为经济的同类，即深度扩张可分离卷积。为了消除扩大卷积造成的网格伪影，本文使用计算效率高的层次特征融合(HFF)方法融合特征映射。该方法将利用扩张卷积学习到的特征映射以层次化的方式进行叠加融合;来自具有最低感受野的分支的特征映射与在层次1的每一层具有下一接收域的分支的特征映射相结合。
结果单元如上图b所示。通过群逐点和逐深度扩张可分离卷积，ESP块的总复杂度降低了 $\frac{Md+n^2d^2K} {\frac{Md}g +(n^2+d)dK}$ ，其中K为群逐点卷积的并行分支数量，g为群逐点卷积的群数量。例如，当 $d=\frac M K= 60$ 时，ESP单元学习的参数比ESP单元少7×。
本文注意到，单独计算上图b中的K个点卷积(或1 × 1)，在复杂度上等价于K个组的单组点卷积;然而，组逐点卷积在实现方面更有效，因为它启动一个卷积核，而不是K个逐点卷积核。因此，本文将这K个逐点卷积替换为一组逐点卷积，如上图c所示。本文将把这个单元称为eesp
Strided EESP with shortcut connection to an input image:
- 为了在多个尺度上高效地学习表示，本文对上图c中的esp块做了如下更改:
  - 1)深度扩张卷积被跨步卷积替换，
  - 2)平均池化操作被添加，而不是残差连接，
  - 3)逐加法操作被连接操作替换，这有助于高效地扩展特征映射的维度。
- 在降采样和卷积(滤波)操作期间，空间信息会丢失。为了更好地编码空间关系和有效地学习表示，本文在输入图像和当前下采样单元之间添加了一个高效的远程旁路连接。该连接首先对图像进行下采样，使其与特征映射的大小相同，然后使用两个卷积的堆栈学习表示。第一个卷积是标准的3 × 3卷积，学习空间表示，而第二个卷积是逐点卷积，学习输入之间的线性组合，并将其投射到高维空间。最终的esp单元具有远程快捷连接到输入端，如下图所示。
- 跨步式eesp设备，可与输入图像(红色突出显示)进行下采样。平均池化操作重复P ×，以匹配输入图像和特征映射的空间维度。

Network architecture

ESPNetv2网络采用eesp单元构建。在每个空间层次上，ESPNetv2重复多次eesp单元，以增加网络的深度。在EESP单元中(上图c)，本文在每个卷积层后使用批归一化和PReLU，但最后一个组卷积层例外，在元素求和操作后应用PReLU。为了在每个空间层面上保持相同的计算复杂度，每进行一次降采样操作后，特征映射将加倍。
在本文的实验中，设置膨胀率r与eesp单元分支的数量(K)成正比。EESP单元的有效感受野随着k的增加而增加，一些核，特别是在7 × 7这样的低空间水平上，其有效接收野可能比特征图的大小更大。因此，这样的内核可能对学习没有帮助。为了得到有意义的核，本文用空间维度 $W^l × H^l$ 限制每个空间水平l上的有效感受野: $n^l_d(Z^l) = 5 +\frac{Z^l}7, Z^l∈{W^l, H^l}$ ，有效感受野 $n_d × n_d)$ 对应最低空间能级(即7×7)为5×5。在espnet之后，在实验中设置K = 4。此外，为了拥有一个同构的架构，本文设置组点卷积中的组数等于并行分支的数量(g = K)。下表显示了不同计算复杂性下的总体ESPNetv2架构。
ESPNetv2网络在不同计算复杂度下将224 × 224输入分类到ImageNet数据集中的1000个类。网络的复杂性是根据乘法-加法操作(或FLOPs)的总数来评估的。

Experiments

为了展示ESPNetv2网络的强大功能，本文在四个不同的任务上评估并比较了最先进的方法的性能:(1)对象分类，(2)语义分割，(3)对象检测，和(4)语言建模。

Image classification

Dataset:
- 本文在ImageNet 1000路分类数据集上评估ESPNetv2的性能，该数据集包含1.28M图像用于训练，50K图像用于验证。本文使用单裁剪top-1的分类精度来评估网络的性能，即计算尺寸为224 × 224的中心裁剪视图的精度。
Training:
- ESPNetv2网络使用PyTorch深度学习框架进行训练，CUDA 9.0和cuDNN作为后端。为了优化，本文使用带有热重启的SGD。在每一时刻t，计算出ηt的学习率为:
- $\eta_t=\eta_{max}-(t~ mod~T)·\eta_{min},(1)$
- 式中，ηmax和ηmin为学习率的取值范围，T为学习率重新开始的周期长度。图4可视化了三个周期的学习率策略。这种学习率方案可以看作是余弦学习策略[28]的变体，其中学习率在热重启前衰减为余弦的函数。
- 实验设ηmin = 0.1， ηmax = 0.5， η T = 5。通过优化交叉熵损失来训练300个epoch的批大小为512的网络。为了更快的收敛，在以下epoch间隔({50,100,130,160,190,220,250,280})将学习率衰减2倍。除了基于颜色的归一化外，我们使用标准的数据增强策略。这与最近的高效架构形成了对比，后者使用更少的规模扩展来防止欠拟合。使用[Delving deep into rectifiers: Surpassing human-level performance on imagenet classification]中描述的方法初始化网络的权值。
Results:
- 下图提供了ESPNetv2和最先进的高效网络之间的性能比较。
- 在ImageNet验证集上不同有效网络的性能比较:
  - (a) ESPNetv2 vs. ShuffleNetv1 ，
  - (b) ESPNetv2 vs.高效模型在不同网络复杂性，
  - © ESPNetv2 vs.最先进的计算预算约3亿次FLOPs。本文计算了大小为224 × 224的输入图像所需要的乘法和加法运算的总次数。在这里，†表示[Shufflenet v2]报告了这些网络的性能。彩色观看效果最佳。
- 本文观察到:
  - (1)与ShuffleNetv1一样，ESPNetv2也使用组逐点卷积。然而，ESPNetv2没有使用任何通道shuffle，这在ShuffleNetv1中被发现是非常有效的，并提供了比ShuffleNetv1更好的性能。
  - (2)与mobilenet相比，ESPNetv2提供了更好的性能，特别是在小的计算预算。ESPNetv2有2800万次失败，比MobileNetv1(3400万次)和MobileNetv2(3000万次)分别高出10%和2%。
  - (3) ESPNetv2的精度与ShuffleNetv2相当，没有任何通道分割，使得ShuffleNetv2的性能比ShuffleNetv1更好。本文认为这些功能(信道分割和信道混洗)与ESPNetv2无关，可以进一步提高ESPNetv2的效率和准确性。
  - (4)与其他高效的网络相比，ESPNetv2在大约3亿次失败的计算预算中提供了更好的性能。比CondenseNet精确1.1%)。
- Multi-label classification:
  - 为了评估迁移学习的泛化性，本文在MSCOCO多目标分类任务上评估模型。该数据集包含82783张图像，它们被分为80个类，每个图像有2.9个对象标签。接下来，在验证集(40504张图片)上使用分类和整体F1评分评估我们的方法。
  - 使用与ImageNet数据集相同的数据增强和训练设置，对100个epoch进行了ESPNetv2(2.84亿FLOPs)和Shufflenetv2(2.99亿FLOPs)的优化，除ηmax=0.005和ηmin=0.001外，学习率在第50和80个epoch衰减2。使用二元交叉熵损失进行优化。结果如下图所示。ESPNetv2在很大程度上优于ShuffleNetv2，特别是在图像分辨率为896 × 896的情况下测试;建议esp单元的大有效接受域有助于ESPNetv2更好地学习表征。
  - 在MS-COCO多目标分类任务中，不同分辨率下ESPNetv2比ShuffleNetv2的f1分性能有所提高。当验证集输入224 × 224时，ESPNetv2和ShuffleNetv2的分类/总体f1得分分别为63.41/69.23和60.42/67.58。
Performance analysis:
- 边缘设备具有有限的计算资源和有限的能量开销。对于这样的设备，一个有效的网络应该消耗更少的电力，具有低延迟和高精度。本文在两种不同的设备上测量本文的网络ESPNetv2和其他最先进的网络(MobileNets和ShuffleNets)的效率:1)高端显卡(NVIDIA GTX 1080 Ti)和2)嵌入式设备(NVIDIA Jetson TX2)。为了进行公平的比较，本文使用PyTorch作为深度学习框架。
- 下图比较了推断时间和功耗，
  - 不同高效网络的性能分析(计算预算≈3亿次失败)。在NVIDIA GTX 1080 Ti GPU和NVIDIA Jetson TX2上，224 × 224输入的100次迭代平均推断时间和功耗。没有报告TX2上的执行时间，因为没有太大的实质性差异。彩色观看效果最佳。
- 下图比较了网络复杂性及其准确性。ESPNetv2的推断速度略低于两个设备上最快的网络(ShuffleNetv2)，然而，在ImageNet数据集上提供类似的精度时，它的电力效率更高。这表明ESPNetv2网络在精度、功耗和延迟之间有很好的权衡;对于运行在边缘设备上的任何网络来说，这都是非常理想的属性。

Semantic segmentation

Dataset:
- 本文评估了ESPNetv2在两个数据集上的性能:(1)cityscape和(2)PASCAL VOC 2012数据集。Cityscapes数据集包含5000张精细注释的图像(训练/验证/测试:2975 /500/ 1525)。任务是将图像分割成19个类，它们属于7个类别。PASCAL VOC 2012数据集为20个前景对象提供标注，并有1.4K训练、1.4K验证和1.4K测试图像。按照标准惯例[Deeplab,Pyramid scene parsing network]，本文还使用来自[Semantic contours from inverse detectors，Microsoft coco]的额外图像来训练本文的网络。
Training:
- 本文分两个阶段训练网络。在第一阶段，使用较小的图像分辨率进行训练(PASCAL VOC 2012数据集的分辨率为256 × 256, cityscape数据集的分辨率为512 × 256)。本文使用SGD训练ESPNetv2 100个epoch，初始学习率为0.007。在第二阶段，本文提高图像分辨率(PASCAL VOC 2012的分辨率为384 × 384, cityscape数据集的分辨率为1024 × 512)，然后使用初始学习率为0.003的SGD从第一阶段开始对ESPNetv2进行100个epoch的微调。
- 对于这两个阶段，使用循环学习计划。对于前50个epoch，使用5的周期长度，而对于其余的epoch，使用50的周期长度，即对于最后50个epoch，线性衰减学习率。利用在线评估服务器在私有测试集上用联合均值相交(mIOU)来评估准确率。为了评估，使用最近邻插值对分割后的掩模进行上采样，使其大小与输入图像相同。
Results:
- 下图比较了在cityscape和PASCAL VOC 2012数据集上ESPNetv2与状态方法的性能。可以看到，ESPNetv2在非常高效的同时，为现有方法提供了具有竞争力的性能。在类似的计算约束下，ESPNetv2大大超出了现有的方法，如ENet和ESPNet。值得注意的是，ESPNetv2比其他高效网络(如ICNet、ERFNet和ContextNet)的准确率低2-3%，但失败次数少9 - 12倍。
- 在(a) cityscape数据集和(b) PASCAL VOC 2012数据集上的语义分割结果。为了公平的比较，报告在相同的图像分辨率下用于计算精度的FLOPs。

Object detection

Dataset and training details:
- 对于目标检测，在单目标检测中用ESPNetv2代替VGG。评估了两个数据集上的性能:(1)PASCAL VOC 2007和(2)MS-COCO数据集。对于PASCAL VOC 2007数据集，还使用了来自PASCAL VOC 2012数据集的额外图像。用平均平均精度(mAP)来评估性能。
- 对于COCO数据集，报告mAP @ IoU为0.50:0.95。对于训练，使用与第4.2节相同的学习策略。
Results:
- 下表比较了ESPNetv2与现有方法的性能。ESPNetv2在准确性和效率之间提供了很好的权衡。值得注意的是，ESPNetv2提供了与YOLOv2相同的性能，但FLOPs次数少了25倍。与SSD相比，ESPNetv2提供了非常有竞争力的性能，同时非常高效。
- 在PASCAL VOC 2007和MS-COCO数据集上的目标检测结果。

Language modeling

Dataset:
- 本文的单元EESP的性能在准备的Penn Treebank (PTB)数据集上进行评估。对于训练和评估，遵循与[Regularizing and optimizing lstm language models]中相同的训练、验证和测试数据的划分。
Language Model:
- 本文扩展了基于LSTM的语言模型，将处理输入向量的线性变换替换为LSTM单元内的eesp单元。我们称这种模型为ERU(高效循环单元)。本文的模型使用3层ERU，嵌入尺寸为400。在嵌入层后使用概率为0.5的标准dropout ， ERU层之间的输出，以及最终ERU层的输出。使用与[espnet]相同的学习策略来训练网络。用困惑度来评价表现;较低的困惑值是可取的。
Results:
- 语言建模结果如下表所示。ERUs在学习更少参数的情况下，比最先进的方法取得了类似或更好的性能。与类似的超参数设置，如dropout, ERUs提供类似(只比PRU少1点)或更好的性能比最先进的循环网络，同时学习更少的参数;这表明引入的EESP单元(图1c)是高效和强大的，可以应用于不同的序列建模任务，如问题回答和机器翻译。
- 这个表比较了本文的模型的单个模型单词级别的困惑与Penn Treebank数据集测试集上的最新水平。perplexity值越低，性能越好。
- 本文注意到，最小的拥有700万个参数的语言模型的性能超过了大多数最先进的语言模型(例如[Quasi-recurrent neural networks.,A theoretically grounded application of dropout in recurrent neural networks,Alternating multi-bit quantization for recurrent neural networks])。本文认为ERU的性能可以通过严格的超参数搜索和高级dropouts进一步提高。

Ablation Studies on the ImageNet Dataset

Impact of different convolutions:
- 下表总结了不同卷积的影响。显然，向深度方向扩张的可分离卷积比向深度方向扩张的卷积更有效。
- 不同卷积的ESPNetv2。带标准扩展卷积的ESPNetv2与ESPNet相同。
Impact of hierarchical feature fusion (HFF):
- 在[espnet]中，引入HFF来消除由于卷积扩张造成的网格伪影。在这里，本文研究了它们对对象分类的影响。ESPNetv2网络带HFF和不带HFF的性能见下表(参见R1和R2)。HFF算法在不影响网络复杂度的前提下，提高了分类性能约1.5%。
- ESPNetv2在不同设置下的性能。其中HFF表示分层特征融合，LRSC表示与输入图像的远程旁路连接。本文训练ESPNetv2为90个epoch，每30个epoch后学习率衰减10。对于固定学习率计划，将学习率初始化为0.1;对于循环计划，将ηmin和ηmax分别设为0.1和0.5。这里，†表示学习率计划与4.1节相同。
- 这表明HFF的作用具有双重目的。首先，它消除了由扩大的卷积引起的网格工件(如[espnet]所指出的)。其次，它使EESP单元的不同分支之间能够共享信息，从而允许它学习丰富和强表示。
Impact of long-range shortcut connections with the input:
- 为了观察旁路连接对输入图像的影响，本文训练了有和没有旁路连接的ESPNetv2网络。结果见上表(见R2和R3)。显然，这些连接是有效和高效的，性能提高了约1%，对网络复杂性的影响很小(或可以忽略不计)。
Fixed vs cyclic learning schedule:
- 固定学习计划和循环学习计划的对比如上表(R3和R4)所示。通过循环学习计划，ESPNetv2网络在ImageNet数据集上的top-1验证精度提高了约1%;表明循环学习计划可以找到比固定学习计划更好的局部最小值。此外，当我们使用4.1节中概述的学习计划训练ESPNetv2网络更长时间(300个epoch)时，性能提高了约4%(见上表中的R4和R5)。

Conclusion

本文引入了一种重量轻、功耗低的网络ESPNetv2，通过学习大有效感受野的表示来更好地编码图像中的空间信息。本文的网络是一个通用网络，具有良好的泛化能力，可以用于广泛的任务，包括序列建模。本文的网络在不同的任务(如对象分类、检测、分割和语言建模)中提供了最先进的性能，同时更高效。
ESPNet和ESPNetv2基于卷积因子分解思想，构建了一种使用空洞卷积的方法，通过空洞卷积与结构化约束，学习到空间多尺度代表性特征，加速语义信息归纳。ESPNet采用标准卷积对输入降维，标准空洞卷积分别提取空间特征，构建HFF分层残差融合单元，并拼接各层特征。
ESPNetv2使用分组卷积对输入进行降维，深度分离空洞卷积，并用conv1x1组合特征，降低了参数量和计算量；深度分离卷积的使用减少了数据冗余，对于特定特征图的空间特征提取更直接，进一步明确了空间代表特征的提取；规范了rate值的使用，使特征提取更有效。
ESPNetv2目的是构建更通用的网络，不仅在图像分割，在分类和语言模型都有很好的表现，也说明空洞卷积可以得到大范围的使用。

羞儿

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
【读点论文】ESPNetv2: A Light-weight, Power Efficient, GeneralPurposeConvolutionalNeuralNetwork改V1,降低卷积运算

本文介绍了一种轻量级、节能和通用的卷积神经网络ESPNetv2，用于建模可视化和顺序数据。本文的网络使用逐点向和深度向扩展的可分离卷积，以较少的FLOPs和参数从一个较大的有效接收域学习表示。我们的网络的性能在四个不同的任务上进行了评估:(1)对象分类，(2)语义分割，(3)对象检测，(4)语言建模。在这些任务上的实验，包括在ImageNet上的图像分类和在PenTree bank数据集上的语言建模，证明了本文的方法比目前最先进的方法更优越的性能。
复制链接

扫一扫