即插即用系列 | 阿里最新开源新一代通用神经网络架构: UniNeXt

本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,仅供学习,违者必究!

Title: UniNeXt: Exploring A Unified Architecture for Vision Recognition

Paper: https://arxiv.org/pdf/2304.13700.pdf

Code: https://github.com/jianlong-yuan/UniNeXt/tree/main

导读

本文集中探讨了计算机视觉任务中的通用架构问题。最近的一些研究集中于通过精心设计的空间令牌混合器(Spatial Token Mixer, STM)来提高性能。但是,作者认为一个设计良好的通用架构可以显著提高整个骨干网络的性能,而不论配备哪种空间标记混合器。因此,本文提出了UniNeXt,一种改进的通用架构。

为了验证其有效性,本文采用了各种经典和现代化设计实例化了 STM。实现结果表明,与它们最初提出的架构相比,所提架构可以稳定地提高所有 STM 的性能,并缩小它们之间的性能差距。令人惊讶的是,当配备最原始的局部窗口注意力的UniNeXt甚至优于之前的最新技术,这表明优秀的 STM 可能会因为通用架构的次优性而受到压制,这进一步显示了对视觉骨干网络通用架构的研究的重要性。

Comparison of different architectures.

可以明显地看出,本文核心在于 STM 的通用架构设计。那么,如何理解 STM 呢?

在计算机视觉任务中,输入的图像通常是一组特征映射Feature Maps,每个特征映射都由一组特征向量Feature Vectors组成。在 Vision Transformers 中,特征向量被视为一个 Token,并且令牌或称为标记之间存在依赖关系,这些依赖关系可以通过 STM 来处理。因此,STM 旨在学习在特征映射中所有 Token 之间的空间关系,并将它们组合成更有意义的表示。这种操作可以在卷积或注意力的形式下进行。

方法

Overall Architecture

在本文中,UniNeXt的主要设计思想是通过三种方法增加归纳偏差:

  1. 添加并行的 EC 分支到 STM;
  2. 在通道 MLP 后添加 OC 模块;
  3. 在 FFN 中添加 3×3 深度可分离卷积。

归纳偏差inductive bias早先是指在机器学习模型中,因为先验知识或者假设导致模型对某些假设具有更高的概率,从而更容易学习到某些模式或规律。这里大家可以这样简单理解下:CNN 具有天然的局部性,即强的归纳偏置,因此通常我们仅需少量数据就能训练出一个不错的模型出来,但上限不高。另一方面,Transformer 因为没有了归纳偏差的“束缚”,所以一般需要比较 strong 的数据增强和较大的数据量才能训出一个不错的模型,但它的潜力很大。

UniNeXt 的整体架构图如下所示:

如上所示,UniNeXt 整体依旧沿用了常见的金字塔结构,包含四个分层阶段,每个阶段都包含一个下采样层和多个Unified Blocks。在下采样层中,每个阶段的空间下采样比例为 2,通道数扩展两倍。统一块中的 TOken 数量保持一致。最后,本文方法应用全局平均池化(Global Average Pooling, GAP)和全连接层来执行图像分类任务。

值得注意的是,UniNeXt 的设计灵感来源于Swin TransformerConvNeXtPVT等经典的网络架构,并且通过添加自定义的 EC 分支、OC 模块和 3x3 dwconv 等模块,进一步增强了模型的表示能力。下面我们就分别就这几个模块展开并详细介绍一下。

High-dimensional Convolution (HdC)

首先,我们先看下HdC,这是一种轻量的 3 × 3 3 \times 3 3×3 深度可分离卷积,它可以将高维特征进行局部融合,从而编码高维隐式特征,提高模型的性能。作者继承和扩展了这种卷积嵌入机制,首先使用 MLP 的第一个线性层将特征维度映射到高维特征 F,然后使用深度可分离卷积来进行局部融合,从而编码高维隐式特征,提高模型的效率。通过这种方法,UniNeXt 可以更好地建模高维特征,并且在保持模型轻量化的同时,获得更好的性能。

Embedded Convolution (EC)

其次,本文进一步提出了Embedded Convolution,主要有两个方面的动机:

  1. EC 增强了模型的归纳偏差,这对于学习和泛化至关重要。
  2. EC 与所有现有的 Token Mixer 兼容,提供了跨各种架构的灵活性和易于实现性。

因此,EC 能够增强模型对于空间信息的建模,从而提高模型的性能。此外,由于 EC 是一种通用的卷积操作,能够兼容各种 STM,因此可以在各种视觉任务中进行灵活使用。

Post Convolution (PC)

最后,为了进一步增强卷积嵌入偏差和增强局部表示,本文精心设计了一种卷积结构——Post Convolution。其中,PC 能够通过引入轻量级的3×3深度卷积,在特别是密集预测任务中显著提高模型性能。具体而言,首先将 Token 矩阵转换为 2D 图像表示,然后进行深度卷积以进行局部上下文融合,紧接着进行 flatten 操作,最后使用残差连接以防止权重过度缩放。通过这种方法能够有效增强模型对于图像局部信息的建模,进而提高模型的性能。

Unified Mixer

总的来说,Unified Mixer是一种模型架构,通过在架构中实例化不同的 Token Mixer,例如无参数、卷积和注意力等,模型性能稳步提高。此外,使用仅纯局部窗口注意力的框架,在性能上超越了先前的 sota 结果。

Illustration of different self-attention mechanisms

在上图中,作者首先对特征图进行非重叠窗口分区,对于图像分类使用窗口大小为 7,对于下游任务(例如检测和分割)使用窗口大小为 11。需要注意的是,与 ViTSwin 不同,本文方法不使用额外的绝对位置编码或相对位置编码,因为所提出的卷积嵌入技术足以表示标记之间的位置关系。

实验

总结

这篇论文提出了一种名为UniNeXt的统一架构,通过将空间令牌混合器与其他组件相结合,增加了网络的归纳偏差,包括在 STM 中添加并行的 EC 分支、在通道 MLP 后面添加 OC 模块以及在 FFN 中添加 3×3 的深度可分离卷积。最后,在广泛的实验中,作者验证了该框架的有效性,并呼吁研究人员关注宏观架构设计,而非仅仅是一些精心设计的模块(魔改?)。

关注我们

CVHub是一家专注于计算机视觉领域的高质量知识分享平台:

  • 全站技术文章原创率达99%!
  • 每日为您呈献全方位、多领域、有深度的前沿AI论文解决及配套的行业级应用解决方案,提供科研 | 技术 | 就业一站式服务!
  • 涵盖有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/分割/跟踪/姿态/超分/重建等全栈领域以及最新的AIGC等生成式模型!

关注微信公众号,欢迎参与实时的学术&技术互动交流,领取学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!


即日起,CVHub 正式开通知识星球,首期提供以下服务:

  1. 本星球主打知识问答服务,包括但不仅限于算法原理项目实战职业规划科研思想等。
  2. 本星球秉持高质量AI技术分享,涵盖:每日优质论文速递,优质论文解读知识点总结等。
  3. 本星球力邀各行业AI大佬,提供各行业经验分享,星球内部成员可深度了解各行业学术/产业最新进展。
  4. 本星球不定期分享学术论文思路,包括但不限于Challenge分析,创新点挖掘实验配置写作经验等。
  5. 本星球提供大量 AI 岗位就业招聘资源,包括但不限于CVNLPAIGC等;同时不定期分享各类实用工具干货资料等。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值