NeurIPS 2023 | 旷视张祥雨等人提出RevColV2：当解耦学习遇见自监督训练！视觉预训练新思路...-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【计算机视觉和Transformer】交流群

作者：Qi Han（源：知乎，已授权）

https://zhuanlan.zhihu.com/p/655750917

在CVer微信公众号后台回复：Rev，可以下载本论文pdf、代码，学起来！

RevColV2: Exploring Disentangled Representations in Masked Image Modeling

代码：github.com/megvii-research/RevCol

论文：https://arxiv.org/abs/2309.01005

TL;DR

RevColV2基于可逆列网络，首次在MIM视觉预训练中实现了特征解耦学习，统一了上下游任务的网络结构，在COCO检测和ADE20K分割任务上达到了62.1的AP和60.4的mIoU。

前言：

vision pre-training作为视觉基础模型必不可少一个环节，始终承担着建立基础表征的职责。从监督训练，到对比学习训练，再到MIM预训练，视觉预训练一直在建立更”通用“的表征的道路上砥砺前行，时至2023年，vision pre-trianing已经成为一个标准流程。那么，现有的"标准流程"中有什么问题吗？

图1. 主流预训练方式

众所周知，视觉预训练旨在学到可以被很好泛化到各种下游任务上的通用特征，这就要求了pre-training阶段的表征要承载丰富多样的信息，同时又要语义丰富。图1展示了几种主流的预训练方法，其中黄色表示detail信息，深蓝色表示更semantic的信息。可以看到，在监督学习中，由于label是highly semantic的分类标签，模型在输出层保留了高度的语义化的特征；而MAE这种利用MIM方式训练的auto-encoders, 需要再pre-training阶段利用decoder来重建图像表征，然后在下游任务重抛弃掉decoder，利用encoder-only的形式来建立表征。这种encoder-decoder的人为界定，约束了语义信息出现的位置。而BEiT类模型在预训练中采用discrete token预测的形式，使用encode-only的架构，无需人为界定语义信息的位置，但在输出层杂糅了语义与细节信息，导致模型feature的直接利用性较差 (体现为linear porb性能较低)。

虽然这几种架构都学到了有效的语义信息表征，但通用模型的角色要求了模型的表征不仅仅有丰富的语义表征，也需要有足够的细节detail来支撑各种下游任务。MAE这种从details - semantic - details的结构，通过手动去掉后面decoder来让模型输出更多的semantic信息，势必会对detail特性有所损害，且这种预训练（auto-encoders）与下游(encoder-only)的模型差异，会丢失掉一些学到的distribution特性。

架构统一与解耦学习

为什么MAE这种autoencoder模型不能保留整体的encoder-decoder在下游使用呢？上一段的图1已经给出了答案，建模好的semantic特征在decoder中有所丢失，让下游任务的性能变差。在NLP任务上，encoder-decoder架构是一种非常主流的结构，但在CV任务上，由于pre-training和fine-tune的输出空间不一致，需要在pre-trian的阶段中，既保留pre-training的输出空间，也要兼顾fine-tune的输出空间。但视觉任务的下游并不固定，所以在pre-training阶段能保留下尽可能多的信息，同时又要建模丰富的语义特征，才是必要的。有没有什么网络架构能保留所有图像信息呢，自然可以想到可逆神经网络，在通用模型的表征学习中，reversible column network是一种可逆的在输出空间保留全部信息同时又能够建模丰富语义的网络。详情可以参考：

https://zhuanlan.zhihu.com/p/606594311

RevCol作为一个现有的可以同时建模丰富语义信息且保留全部图像信息的模型，在通用模型领域开辟了一个新的思路。但RevCol的训练依赖于大量labeled数据来进行监督训练，例如原文章中使用168M数据进行训练。这里我们依托RevCol模型提出V2版本，在MIM领域探索解耦学习，让信息保留特性在自监督预训练中绽放光彩，且由于兼顾了预训练和下游的输出空间 (语义信息+完整信息)，模型可以无损的应用到下游任务重，不需要人为界定一个decoder来抛弃，统一了上下游模型结构。

RevColV2最大的贡献就是MIM中的统一与解耦，在进行MIM预训练时，上下游采用相同的模型结构，保留了完整的decoder且兼顾了语义特性和detail信息。设计原则如图所示：

图2. RevColV2模型设计概览

RevColV2继承了之前的基础单元，仍然一reversible column为基础模块单元，通过堆叠不同的column来构建整个网络。在V2中，一部分columns承担了encoder的角色，另一部分扮演了decoder角色。但这里的encoder和decoder并没有本质区别，decoder也不是单纯的从语义信息回复图像本身。由于reversible的特性，每个column都保留了图像的完整信息，所以encoder和decoder都在同时建模semantic且保留details，完整的信息流动如图2所示，从左到右的columns语义信息一直在加强，且detail信息依旧保留，最终形成了output特征空间中解耦的表达。

RevCol V2训练范式

图3. RevCol V2结构与训练方式

在这种由columns构成的encoder decoder结构中进行MIM pre-trianing，unmasked patches首先通过encoder columns，然后在每个level的output上都和MAE一样加上mask token，在decoder columns中继续进行建模。在最后一个column的输出中，不同的level联合构建了图像的全部信息，因此我们在pre-training阶段的level-0上进行图像补全的自监督，这种偏detail的监督信号，会在reversible的结构下迫使更高的levels建立更semantic的信息。因此在下游任务重，相应的使用不同level的features。对于分类任务，只需要最semantic的特征即可，因此只使用level-3的output，对于检测、分割等需要both high-level特征，则使用所有level的output，但这些特征是以解耦的形式表达了图像的全部信息，因此具有更好的泛化性。

更多的方法细节，欢迎阅读原paper。

实验结果

RevColV2的基础组件为reversible columns，其中包含多个levels，每个level由一个transformer block构成。在预训练阶段，采用MIM的训练方式在ImageNet上进行训练，然后迁移到下游进行评测。

在分类任务上，ImageNet1K测试结果：

图4. 下游ImageNet分类结果

得益于结构的特征和统一的上下游结构，RevColV2的base和large模型分别取得了87.5和88.4的acc（with 22K ft），同时在分割和检测任务上，也有较为明显的提升。

图5. 下游COCO和ADE20K的检测和分割结果

更直接的joint pre-training

图3所示的RevColV2整体训练pipeline中，在pre-training中重建raw image来保持detail特征，通过RevCol解耦学习的特性来使semantic信息保留在其他level。更进一步，可以显示的同时监督semantic部分与detail部分，在detail部分（bottom level）重建原始图像，而在最semantic部分（top level）重建semantic feature。这里semantic feature我们采用CLIP来进行实验，使用两种不同的自监督信号joint建模了detail+semantic特征。

采用OpenCLIP-L最为semantic feature的重建，同时我们尝试把自监督阶段的数据scale到更大的量级（LAION400M），训练同样的iterations，效果如下图所示：

图6. Joint Pre-training的下游结果

联合训练的RevColV2-L模型在不经过object365 pre-train的情况下，在COCO detection上达到了62.1的AP（cascade Mask RCNN）在ADE20K上也达到了60.4的mIoU。

总结

RevColV2作为一个视觉通用模型，首次将解耦学习成功应用到了MIM自监督训练中，通过解耦特征，在上下游任务上保持了相同的网络结构，增强了特征的泛化性。相比RevCol的V1版本，V2不需要大量的labeled数据集来进行supervised training，同时得益于isotropic的ViT结构，速度上也有了一些提升。相比MAE等经典的自监督训练框架，RevColV2首次在上下游中统一使用了encoder-decoder结构，不再受限于输出空间的限制。我们相信，这种将解耦特征学习与自监督预训练相结合的形式，能够为视觉预训练领域打开全新的思路。

在CVer微信公众号后台回复：Rev，可以下载本论文pdf、代码，学起来！

点击进入—>【计算机视觉和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

计算机视觉和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-计算机视觉或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注：研究方向+地点+学校/公司+昵称（如计算机视觉或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer444，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看