MetaFormer is Actually What You Need for Vision

最新推荐文章于 2025-03-04 13:23:39 发布

与光i

最新推荐文章于 2025-03-04 13:23:39 发布

阅读量832

点赞数

文章标签： transformer 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dawnyi_yang/article/details/121734241

版权

摘要

在Transformer中，早期人们发现是其中的注意力机制起了很重要的作用，但后续其他的研究发现除了注意力模块，其他模块也能起到一定的作用。所以文章提出了：其实这些具体的模块并不重要，Transformer的成功来自于其整体架构。
论文地址：MetaFormer is Actually What You Need for Vision

方法

论文提出了叫PoolFormer的模型，整体结构和其他模型类似，只是将token mixer的部分替换为pool池化层。如图1。
Alt

图1

池化算子的描述如下：
在这里插入图片描述
伪代码逻辑如下：

由于池化算子的复杂度比自注意力和spatial MLP要小，与要处理的序列长度呈线性长度，且没有可学习的参数，所以可以采用分阶段的方法。模型分了四个阶段，如图2。假设总共有L个PoolFormer块，则四个阶段分别分配L/6、L/6、L/2、L/6个。
在这里插入图片描述

图2

每个阶段的参数如下图3。
Alt

图3

实验

在图像分类任务上，PoolFormer性能都超过了同等规模的其他模型。
Alt

目标检测和实例分割上使用COCO数据集，在以更少的参数的前提下取得了比ResNet更高的性能。

Alt

Alt
语义分割任务上也超过了ResNet、ResNeXt和PVT。
在这里插入图片描述
消融实验中，论文将池化模块替换成恒等映射，也保留了较高的精度。在此基础上改变池化核尺寸、归一化方法、激活函数影响都不大。
Alt
消融实验结果说明图1中token mixer这个部分，具体采用哪种方法并不关键，网络模型的整体结构才是对性能提升最重要的。因此整体的结构被提炼出来，被命名为Meta Former，如图1最左边的模型。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。