魔改ResNet反超Transformer再掀架构之争!作者说“没一处是创新”,这些优化trick值得学...

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

过去一年,Transformer频频跨界视觉领域,大有抢CNN饭碗之势。

先是图像分类上被谷歌ViT突破,后来目标检测和图像分割又被微软Swin Transformer拿下。

随着投身视觉Transformer研究的学者越来越多,三大任务榜单皆被Transformer或两种架构结合的模型占据头部。

但就在此时,一篇《2020年代的卷积网络》横空出世,带来全新纯卷积模型ConvNeXt,一下又热闹起来——

全世界CV圈再次掀起模型架构之争,LeCun等一众顶级学者都下场评论的那种。

120a8d6f72b55adb425d31db67af6e2f.png

论文指出,ConvNeXt性能反超同等规模的Swin Transformer,在ImageNet-1k上超过后者0.7%。

COCO、ADE20K上,ConvNeXt也做到同等规模更好或相当水平。

面对这篇由Facebook与UC伯克利联手打造的论文,深度学习三巨头之一的LeCun直言:

卷积模型与视觉Transformer间的争论愈演愈烈了!

700e042a1327e35ed01e783ff6baca60.png

GitHub上,ConvNeXt连续多天排在趋势榜第一。

3041235573aa55fdb1e8d65555f01e41.png

在国内,如此垂直的学术问题甚至一度登上知乎全站热榜。

bfe3c29a484e350edb0a1045ea5e52e6.png

在国外,不少高校学者和谷歌、Arm等大厂工程师都来参与讨论,甚至捕捉到一些经典论文作者——

ViT作者EfficientNet系列作者都来展示自己的最新研究成果,想要一比高下。

2fc637abd21386ca7748e8889fbd562b.png
ViT论文二作补充了改进训练方法后的结果

6997d4038aa9290fd2e4745e8565ee71.pngEfficientNet系列作者补充了最新v2版本结果

再说回LeCun,这次他还真不是来给自家成果站台的,而是提出模型架构之间相互借鉴是未来的方向。

你以为我接下来要说“Conv is all you need”了吗?不是!

6f20c5a2e9709ca03aaeb792ecd4fc73.png

原来LeCun自己最喜欢的架构类似DETR,第一层是卷积,后面与更多Transformer风格的层相结合。

虽然这次的ConvNeXt不是他说的这种,但也从Transformer身上借鉴了大量技巧,LeCun觉得其成功之处就在于此。

这次论文的通讯作者谢赛宁也对这些讨论作出了回应。

他说这并不是一篇想要比拼精度刷榜单的论文,更多的是想探索卷积模型的设计空间。

在设计过程中他们团队非常克制,尽量保持了模型的简洁。

在我看来,所有模型架构都应该是朋友,只有过度复杂才是共同的敌人(如果你认同奥卡姆剃刀原则的话)。

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值