网络架构之争：三大主流架构对决，谁是王者？深入思考CNN、Transformer与MLP

最新推荐文章于 2024-08-20 13:00:00 发布

极市平台

最新推荐文章于 2024-08-20 13:00:00 发布

阅读量1.1k

点赞数

文章标签：目标检测深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Extremevision/article/details/121512381

版权

作者丨happy
编辑丨极市平台
本文首发于极市平台公众号，转载请获得授权并标明出处。

论文链接：https://arXiv.org/abs/2108.13002

本文是中科大&MSRA在DNN的CNN、Transformer以及MLP三大流派纷争方面的一点深入思考。为分析不同架构的特性，作者首先构建了一个统一架构SPACH将Mixing做成可配置型，以此为基础上CNN、Transformer以及MLP进行挖掘得出：多阶段优于单阶段、局部建模非常重要以及CNN与Transformer的互补性。基于所挖掘特性构建了一种CNN与Transformer混合模型，所得模型仅需63M参数量即可在ImageNet数据集上取得83.9%的top1精度，优于Swin-B、CaiT-S36。

Abstract

CNN占据了CV的主流，近来Transformer与MLP开始在ImageNet分类任务上引领新的趋势。

本文对这些深度神经网络架构进行实证研究并尝试理解他们的利与弊。为确保公平性，我们首先开发了一种称之为SPACH的统一架构，它采用独立的模块进行空域与通道处理。基于SPACH的实验表明：在适度规模下，所有架构可以取得相当的性能。然而，随着网络放大，他们表现出不同的行为。基于所得发现，我们采用卷积与Transformer提出了两个混合模块。所提Hybrid-MS-S+仅需63M参数量12.3GFLOPs即可取得83.9%top1精度，已有现有精心设计的模型具有相当的性能。

全文链接：网络架构之争：三大主流架构对决，谁是王者？深入思考CNN、Transformer与MLP

关注极市平台公众号，获取最新CV干货
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。