梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
过去一年,Transformer频频跨界视觉领域,大有抢CNN饭碗之势。
先是图像分类上被谷歌ViT突破,后来目标检测和图像分割又被微软Swin Transformer拿下。
随着投身视觉Transformer研究的学者越来越多,三大任务榜单皆被Transformer或两种架构结合的模型占据头部。
但就在此时,一篇《2020年代的卷积网络》横空出世,带来全新纯卷积模型ConvNeXt,一下又热闹起来——
全世界CV圈再次掀起模型架构之争,LeCun等一众顶级学者都下场评论的那种。
论文指出,ConvNeXt性能反超同等规模的Swin Transformer,在ImageNet-1k上超过后者0.7%。
COCO、ADE20K上,ConvNeXt也做到同等规模更好或相当水平。
面对这篇由Facebook与UC伯克利联手打造的论文,深度学习三巨头之一的LeCun直言:
卷积模型与视觉Transformer间的争论愈演愈烈了!
GitHub上,ConvNeXt连续多天排在趋势榜第一。
在国内,如此垂直的学术问题甚至一度登上知乎全站热榜。
在国外,不少高校学者和谷歌、Arm等大厂工程师都来参与讨论,甚至捕捉到一些经典论文作者——
ViT作者、EfficientNet系列作者都来展示自己的最新研究成果,想要一比高下。
△ViT论文二作补充了改进训练方法后的结果
△EfficientNet系列作者补充了最新v2版本结果
再说回LeCun,这次他还真不是来给自家成果站台的,而是提出模型架构之间相互借鉴是未来的方向。
你以为我接下来要说“Conv is all you need”了吗?不是!
原来LeCun自己最喜欢的架构类似DETR,第一层是卷积,后面与更多Transformer风格的层相结合。
虽然这次的ConvNeXt不是他说的这种,但也从Transformer身上借鉴了大量技巧,LeCun觉得其成功之处就在于此。
这次论文的通讯作者谢赛宁也对这些讨论作出了回应。
他说这并不是一篇想要比拼精度刷榜单的论文,更多的是想探索卷积模型的设计空间。
在设计过程中他们团队非常克制,尽量保持了模型的简洁。
在我看来,所有模型架构都应该是朋友,只有过度复杂才是共同的敌人(如果你认同奥卡姆剃刀原则的话)。