全新混合架构iFormer！将卷积和最大池化灵活移植到Transformer

最新推荐文章于 2024-09-15 07:06:44 发布

PaperWeekly

最新推荐文章于 2024-09-15 07:06:44 发布

阅读量536

点赞数

文章标签：卷积计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/125401112

版权

iFormer是一种新型的Inception Transformer，旨在解决Transformer在捕获高频信息方面的不足。通过Inception mixer，它结合了卷积和最大池化的优点，有效地在不同层之间平衡高频和低频信息。实验表明，iFormer在图像分类、检测和分割任务上超越了现有的Transformer和CNN模型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | Jason

研究方向 | 计算机视觉

摘要

最近的研究表明，Transformer 具有很强的构建远程相关性的能力，但在捕获传递局部信息的高频信息方面表现较差。为了解决这个问题，作者提出了一种新型的通用 Inception Transformer，简称 iFormer，它可以有效地学习视觉数据中的高频和低频信息的综合特征。

具体而言，作者设计了一个 Inception mixer，以移植卷积和最大池化的优点，将高频信息捕获到 Transformer。与最近的混合框架不同，Inception mixer 通过通道分裂机制带来了更高的效率，采用并行卷积/最大池化路径和自注意路径作为高频和低频混频器，同时能够灵活地建模分散在较宽频率范围内的鉴别信息。

考虑到底层在捕捉高频细节方面的作用更大，而顶层在建模低频全局信息方面的作用更大，作者进一步引入了一种频率渐变结构，即逐渐减小馈送到高频混频器的尺寸，增加馈送到低频混频器的尺寸，它可以有效地在不同层之间权衡高频和低频分量。

作者在一系列视觉任务中对 iFormer 进行了基准测试，并展示了它在图像分类、COCO 检测和 ADE20K 分割方面取得的惊人的性能。例如，iFormer-S 在 ImageNet-1K 上达到了83.4% 的 Top-1 精度，比 DeiT-S 高出了 3.6%，甚至比更大的 Swin-B（83.3%）略好，只有 1/4 的参数和 1/3 的 FLOPs。

论文和代码地址

论文标题：

Inception Transformer

论文地址：

https://arxiv.org/abs/2205.12956

代码地址：

https://github.com/sail-sg/iFormer

Motivation

Transformer 在自然语言处理（NLP）领域掀起了高潮，在许多 NLP 任务中取得了不错的高性能，例如机器翻译和问答。这在很大程度上归功于它具有强大的能力，能够利用自注意机制对数据中的长期依赖关系进行建模。它的成功使研究人员研究了它对计算机视觉领域的适应性，视觉 Transformer（ViT）是一个先驱工作，该结构直接继承自 NLP，但应用于以原始图像块作为输入的图像分类。后来，开发了许多 ViT 变体，以提高性能或扩展到更广泛的视觉任务，例如，目标检测和分割。

ViT 及其变体能够捕获视觉数据中的低频率信息，主要包括场景或对象的全局形状和结构，但对于学习高频率（主要包括局部边缘和纹理）的能力不是很强。这可以直观地解释：ViTs 中用于在非重叠 patch token 之间交换信息的主要操作 self-attention 是一种全局操作，比起局部信息（低频），它更适合捕获全局信息（高频）。

最低0.47元/天解锁文章