魔改ResNet反超Transformer再掀架构之争！作者说“没一处是创新”，这些优化trick值得学...

QbitAl

于 2022-01-16 12:17:03 发布

阅读量3.1k

点赞数

文章标签：卷积大数据计算机视觉机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QbitAI/article/details/122531495

版权

梦晨发自凹非寺
量子位 | 公众号 QbitAI

过去一年，Transformer频频跨界视觉领域，大有抢CNN饭碗之势。

先是图像分类上被谷歌ViT突破，后来目标检测和图像分割又被微软Swin Transformer拿下。

随着投身视觉Transformer研究的学者越来越多，三大任务榜单皆被Transformer或两种架构结合的模型占据头部。

但就在此时，一篇《2020年代的卷积网络》横空出世，带来全新纯卷积模型ConvNeXt，一下又热闹起来——

全世界CV圈再次掀起模型架构之争，LeCun等一众顶级学者都下场评论的那种。

论文指出，ConvNeXt性能反超同等规模的Swin Transformer，在ImageNet-1k上超过后者0.7%。

COCO、ADE20K上，ConvNeXt也做到同等规模更好或相当水平。

面对这篇由Facebook与UC伯克利联手打造的论文，深度学习三巨头之一的LeCun直言：

卷积模型与视觉Transformer间的争论愈演愈烈了！

GitHub上，ConvNeXt连续多天排在趋势榜第一。

在国内，如此垂直的学术问题甚至一度登上知乎全站热榜。

在国外，不少高校学者和谷歌、Arm等大厂工程师都来参与讨论，甚至捕捉到一些经典论文作者——

ViT作者、EfficientNet系列作者都来展示自己的最新研究成果，想要一比高下。

△ViT论文二作补充了改进训练方法后的结果

△EfficientNet系列作者补充了最新v2版本结果

再说回LeCun，这次他还真不是来给自家成果站台的，而是提出模型架构之间相互借鉴是未来的方向。

你以为我接下来要说“Conv is all you need”了吗？不是！

原来LeCun自己最喜欢的架构类似DETR，第一层是卷积，后面与更多Transformer风格的层相结合。

虽然这次的ConvNeXt不是他说的这种，但也从Transformer身上借鉴了大量技巧，LeCun觉得其成功之处就在于此。

这次论文的通讯作者谢赛宁也对这些讨论作出了回应。

他说这并不是一篇想要比拼精度刷榜单的论文，更多的是想探索卷积模型的设计空间。

在设计过程中他们团队非常克制，尽量保持了模型的简洁。

在我看来，所有模型架构都应该是朋友，只有过度复杂才是共同的敌人（如果你认同奥卡姆剃刀原则的话）。

最低0.47元/天解锁文章

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
魔改ResNet反超Transformer再掀架构之争！作者说“没一处是创新”，这些优化trick值得学...

梦晨发自凹非寺量子位 | 公众号 QbitAI过去一年，Transformer频频跨界视觉领域，大有抢CNN饭碗之势。先是图像分类上被谷歌ViT突破，后来目标检测和图像分割又被微软Sw...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。