《Res2Net: A New Multi-scale BackboneArchitecture》论文笔记

最新推荐文章于 2023-10-22 22:14:38 发布

大王子呀

最新推荐文章于 2023-10-22 22:14:38 发布

阅读量1.3k

点赞数

分类专栏： paper 文章标签： Res2net 图像分类

本文链接：https://blog.csdn.net/weixin_42994580/article/details/102505617

版权

本文介绍了Res2Net论文，强调了多尺度特征在视觉任务中的重要性。Res2Net模块通过分层的残差连接替换3×3滤波器组，以增强多尺度表示能力。实验表明，Res2Net可提升多种CNN模型的性能，适用于图像分类、对象检测和语义分割等任务。

摘要由CSDN通过智能技术生成

Res2Net: A New Multi-scale BackboneArchitecture

1 INTRODUCTION
2 RELATEDWORK
3 RES2NET
4 EXPERIMENTS
- - 4.1 Implementation Details

论文链接：https://arxiv.org/abs/1904.01169
论文概述：通过在单个残差块内构造类似于分层的残差连接，为CNN提出了一种新颖的构建块。Res2Net在粒度级别表示多尺度功能，并增加了每个网络层的接收范围。可以将建议的Res2Net块插入最新的主干CNN模型，例如ResNet，ResNeXt和DLA。

1 INTRODUCTION

在这里插入图片描述
在自然场景中，视觉模式多以多尺度出现，如图一所示。首先，物体可能以不同的大小出现在场景中。第二，一个对象上下文基本信息可能占据一个比它本身大的区域。例如，我们需要依靠大桌子作为上下文来更好地辨别放在上面的小黑点是杯子还是笔架。第三，感知来自不同尺度的信息对于理解部件和任务对象(图像分类，对象检测，注意力预测，目标跟踪，动作识别，语义分割，对象检测，对象建议，骨架提取，立体匹配和边缘检测)是至关重要的。
不足为奇的是，多尺度特征已经广泛应用于传统特征设计和深度学习。在视觉任务中获得多尺度表示要求特征提取器使用大范围的接受域来描述不同尺度的对象/部分/上下文，卷积神经网络（CNN）通过一堆卷积算子自然学习从粗到细的多尺度特征。 CNN的这种固有的多尺度特征提取能力可以有效地解决众多视觉任务。如何设计更有效的网络架构是进一步提高CNN性能的关键。
在过去的几年中，几个骨干网络在众多具有先进性能的视觉任务中取得了显着进步。诸如AlexNet和VGGNet的早期体系结构会叠加卷积运算符，从而使数据驱动的多尺度特征学习成为可能。随后，通过使用不同内核大小的凹凸层(例如，InceptionNet)、剩余模块(例如，ResNet)、快捷连接(例如，DenseNet)和分层次层聚合(例如，DLA)。CNN主干网架构的进步表明了一种更有效、更高效的多尺度表示的趋势。
在这里插入图片描述
在这项工作中，我们提出了一种简单而有效的多尺度处理方法。与大多数现有的增强CNN的分层多尺度表示强度的方法不同，我们在更细粒度的层次上提高了多尺度表示能力。与一些并发工作通过利用具有不同分辨率的特征来提高多尺度能力的方法不同，我们提出的方法的多尺度是指更细粒度的多个可用接收场。为了实现此目标，我们用一组较小的滤镜组替换 $n$ 个通道的 $3 \times 3$ 滤镜组，每个滤镜组都有 $w$ 个通道（在不失一般性的情况下，我们使用 $n = s \times w$ ）。如图2所示，这些较小的滤波器组以分层的残差状样式连接，以增加输出特征可以表示的比例数。具体来说，我们将输入要素图分为几个组。一组过滤器首先从一组输入要素图中提取要素。然后将上一组的输出要素与另一组输入要素图一起发送到下一组过滤器。此过程重复多次，直到处理完所有输入要素图。最后，来自所有组的特征图被连接起来并发送到另一组 $1 \times 1$ 过滤器以完全融合信息。连同将输入要素转换为输出要素的任何可能路径，当等效接收场通过3×3滤波器时，等效接收场都会增加，由于组合效应，导致许多等效要素比例缩放。
除了现有的深度，宽度和基数，Res2Net策略还公开了一个新的维度，即规模（Res2Net块中功能组的数量），作为一个重要因素。我们在第4.4节中指出扩大规模比增加其他规模更有效。
注意，所提出的方法在更细的层次上利用多尺度潜力，这与利用分层操作的现有方法是正交的。因此，提出的构建块，即Res2Net模块，可以很容易地插入到许多现有的CNN架构中。大量的实验结果表明，Res2Net模块可以进一步提高国家最先进的CNNs的性能，例如:，ResNet，ResNeXt，DLA。

2 RELATEDWORK

2.1 Backbone Networks

近年来，目睹了无数的骨干网络，在各种情况下均实现了最先进的性能更强大的多尺度表示能力的视觉任务。按照设计，由于输入信息遵循从细到粗的方式，因此CNN具有基本的多尺度特征表示功能。AlexNet顺序堆叠过滤器，与传统的视觉识别方法相比，可显着提高性能。然而，由于有限的网络深度和过滤器的内核大小，AlexNet只有一个相对较小的接受域。VGGNet增加了网络深度，并使用更小内核的过滤器，更深层次的结构来扩展接受域，这对于从更大的范围提取特性非常有用。因此，VGGNet提供了比AlexNet更强的多尺度表示模型，参数更少。然而，AlexNet和VGGNet都直接过滤，这意味着每个特性层都有一个相对固定的接受域。

最低0.47元/天解锁文章

大王子呀

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
《Res2Net: A New Multi-scale BackboneArchitecture》论文笔记

Res2Net: A New Multi-scale BackboneArchitecture 1 INTRODUCTION2 RELATEDWORK2.1 Backbone Networks2.2 Multi-scale Representations for Vision Tasks2.2.1 Object detection.2.2.2 Semantic segmentation.2...
复制链接

扫一扫

专栏目录