UniRepLKNet_ A Universal Perception Large-Kernel ConvNet

27 篇文章 1 订阅
3 篇文章 0 订阅

paper: https://arxiv.org/pdf/2311.15599.pdf
code: https://github.com/AILabCVC/UniRepLKNet

摘要

大核卷积神经网络(ConvNets)最近受到了广泛的研究关注,但有两个尚未解决的关键问题需要进一步的研究。1)现有的大核卷积网的架构在很大程度上遵循了传统的卷积网或transformer的设计原则,而针对大核卷积网的架构设计仍未得到充分解决。2)由于transformer主导了多种模式,convnet是否在视觉之外的领域也具有很强的普遍感知能力仍有待研究。在本文中,我们从两个方面进行了贡献。1)我们提出了设计大核卷网的四种架构准则,其核心是利用大内核的基本特征,将它们与小内核区分开来——它们可以看到宽而不深入。根据这样的指导方针,我们提出的大核卷积神经在图像识别方面显示出了领先的性能。2)我们发现,大型内核是解锁ConvNets在它们最初并不熟练的领域中的特殊性能的关键。通过某些与模态相关的预处理方法,所提出的模型在时间序列预测和音频识别任务中,即使没有特定的模态定制的架构,也取得了最先进的性能。

介绍

在ViTs的挑战下,具有超大内核的卷积神经网络(ConvNets)的设计范式来自于Re-*等贡献pLKNet。受使用全局注意或使用大窗口的注意的的启发,RepLKNet建议使用非常大的conv内核。与使用小内核(如3×3)的常见做法相比,即使有许多小内核层也无法获得大的有效感受野(Effective Receptive Field ,ERF),RepLKNet实现了大的ERF和令人印象深刻的性能,特别是在目标检测和语义分割等任务上,。如今,具有非常大的内核的convnet开始流行起来,它主要关注于使大型内核成为更大的,将它们应用于多个任务的方法,等等。然而,我们注意到,现有的大内核ConvNet的大多数架构只是遵循其他模型,例如,RepLKNet遵循Swin变压器的架构,而SLaK 遵循ConvNeXt,这是一个强大的中型(7×7)内核架构。大核卷积网的架构设计仍未得到充分的探索。
我们通过重新考虑使用小内核深度堆栈的传统模型的设计来探索大内核ConvNet架构。当我们在小核心卷积神经网络中添加一个3×3的卷积层时,我们期望它同时产生**三种效果:- 1)使感受野更大,2)增加空间模式的抽象层次结构(例如,从角度和纹理对象的形状),和3)通过更深的结构提高模型的一般表征能力,带来更可学习的参数和非线性。相比之下,我们认为大内核体系结构中的这三种效应应该被解耦,因为模型应该利用大内核的显著优势——看到宽而不深入的能力。由于增加卷积核大小比堆叠更多层在扩大有效感受野(ERF)方面要有效得多,可以通过少量的大卷积核层就建立起足够的有效感受野,这样就可以将计算预算节省下来,用于其他在提高空间模式的抽象层次或通常增加深度方面更有效的结构。当目标是从低层次中提取高级的局部空间模式时,3×3conv层可能是比大核conv层更适合的选择。原因是后者需要更多的计算,并可能导致模式不再局限于较小的局部区域,这在特定的场景中可能是不可取的。
具体地说,我们为大核网络提出了
四个体系结构准则:1) 使用高效的结构,如SE Blocks来增加深度,2) 使用提出的Dilated Reparam Block来重新参数化大卷积核层,以提高性能而不增加推理成本,3) 根据下游任务决定卷积核大小,并通常只在中间层和高层使用大卷积核,4) 在增加模型深度时,添加3×3卷积层而不是更多的大卷积核。**遵循这样的指南构建的卷积神经网络(图1)分别实现了前述的三种效果,因为它使用适量的大卷积核来保证较大的有效感受野(ERF),使用小卷积核更高效地提取更复杂的空间模式,并使用多个轻量级的块来进一步增加深度,以增强表示能力。
我们的架构实现领先性能ImageNet分类,ADE20K语义分割,和COCO目标检测,优于现有的大型内核如RepLKNet ,SLaK,和最近强大的架构包括ConvNeXt V2,FastViT,Swin V2和DeiT III的准确性和效率。
image.png
image.png

相关工作

早期卷积神经网络中的大卷积核

经典的卷积神经网络如AlexNet和Inception在低层使用了7×7或11×11的大卷积核,但是在VGG-Net之后,大卷积核开始不受欢迎。全局卷积网络(GCN)在语义分割中使用了非常大的卷积层(1×K接着是K×1)。局部关系网络(LR-Net)采用了一个空间聚合算子(LR-Layer)来替代标准的卷积层,这可以被视为一种动态卷积。LR-Net从7×7的卷积核中获益,但当卷积核增大到9×9时性能下降。当卷积核大小与特征图一样大时,其top-1准确率显著降低,从75.7%减少到68.4%。

大内核的探索

卷积核的概念可以被推广至超越空间卷积之外。Swin Transformer使用了从7到12不等的窗口尺寸的移位注意力机制,这可以被视作一种动态卷积核。Han等人替换了Swin中的注意力层,用静态或动态的7×7卷积,并且仍然保持了可比的结果。MetaFormer表明,大卷积核池化层是自注意力的一个替代方案。另一个代表性的工作是全局滤波网络(GFNet),它在傅里叶域优化了空间连接权重。这等同于在空间域中的圆形全局卷积。

现代卷积神经网络中的超大卷积核

RepLKNet首次提出,简单地增加现有卷积神经网络的卷积核尺寸可以带来性能提升,特别是在下游任务上。它提出了使用大卷积核时的几条指导原则,这些原则关注于微观结构设计(例如,与大卷积核一起使用捷径连接)和应用(应该在下游任务上评估大卷积核卷积神经网络)。在架构方面,RepLKNet简单地跟随了Swin Transformer。在过去两年中,大卷积核卷积神经网络已经被密集研究。一些工作在进一步扩大卷积核尺寸上取得了成功,并将这一理念推广到了3D场景以及许多下游任务,例如图像去雾和超分辨率。然而,我们注意到,对于拥有非常大卷积核的卷积神经网络的架构设计仍然是一个未充分探索的领域。例如,SLaK遵循了由ConvNeXt发展来的架构,而ConvNeXt是一个中等尺寸(7×7)卷积核的强大架构。

方法

Dilated Reparam Block

大卷积核应该与并行的小卷积核一起使用,因为后者有助于在训练过程中捕捉小尺度模式。它们的输出在两个各自的批量归一化(BN)层之后相加。训练完成后,通过结构性重参数化方法,我们将BN层合并到卷积层中,这样小卷积核就可以在推理时等效地合并到大卷积核中。在这项工作中,我们注意到,除了小尺度模式之外,增强大卷积核捕捉稀疏模式的能力(即,特征图上的一个像素可能与其邻近像素相比更相关一些远距离的像素)可能会产生更高质量的特征。捕捉此类模式的需求恰好与扩张卷积的机制相匹配——从滑动窗口的视角来看,扩张率为r的扩张卷积层扫描输入通道以捕捉空间模式,其中每个感兴趣的像素与其邻居相距r-1个像素。因此,我们使用与大卷积核并行的扩张卷积层,并将它们的输出相加。
Dilated Reparam Block,,它利用一个非扩展的小核层和多个扩展的小核层来增强一个非扩展的大核转换层。

扩张卷积(Dilated Convolution),也称为空洞卷积或带孔卷积,是一种特殊类型的卷积操作,用于增加感受野(即卷积神经网络层能观察到的输入图像的区域大小),而不增加参数数量或计算量。
在传统的卷积中,卷积核(滤波器)在输入图像或特征图上按照固定的步长(stride)逐像素移动,直接相邻的像素点会被卷积核覆盖。但在扩张卷积中,卷积核的元素之间会间隔一定数量的像素点,这个间隔称为扩张率(dilation rate)。
例如,一个3x3的卷积核,如果使用扩张率为1,则是标准卷积,没有间隔。如果扩张率为2,卷积核覆盖的区域变为5x5,但实际上只有3x3的权重,其它位置是空的,卷积核的元素在原始的输入特征图上的采样是间隔一个像素的。这种方式允许网络在不减少图像分辨率的情况下捕捉更广阔的上下文信息。
扩张卷积在处理图像或音频数据时特别有用,尤其是对于像语义图像分割这类需要捕捉更大范围上下文信息的任务。通过调整扩张率,可以灵活地控制感受野的大小,而且由于不增加额外的参数,因此可以实现有效的特征学习而不增加计算负担。扩张卷积是深度学习中一种非常有用的工具,可以提高模型对空间层次结构的理解。

image.png

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值