论文学习记录——iTPN(2023年CVPR)

论文题目:Integrally Pre-Trained TransformerPyramid Networks

论文地址:https://arxiv.org/pdf/2211.12735.pdf

代码地址:https://github.com/sunsmarterjie/iTPN

一.Introduction

近年来视觉识别领域两个比较重要的成果是:1.用ViT(VisionTransformer)结构作为backbone来构架网络;2.用MIM(masked image modeling)来做预训练。通过将这两种方法结合起来的各种模型在图像分类、目标识别、语义分割等任务上都取得了SOTA结果。

但这种模型构建的方法有一个非常重要的问题,就是在上游的预训练任务和下游的fine-tuning之间存在很大的transfer gap。而本文作者则认为在下游的图像识别尤其是fine-scaled的识别中是需要提取出多尺度的特征的,但现存的大多数的预训练任务都是在plain的ViT架构上完成的,缺乏多尺度特征。而少部分基于hierachical ViT架构的研究,其预训练也只涉及backbone而忽略了neck部分。这就可能导致后续的fine-tuning过程是从一个随机的neck开始的,这样就不能保证neck和backbone部分是相匹配的。

基于上述的问题,本文作者提出了基于HiViT,利用特征金字塔,且适用于MIM的全局预训练网络——iTPNs(Integrally Pre-Trained TransformerPyramid Networks)。为了同时优化backbone(HiViT)和neck(feature pyramid)部分,作者主要采取了以下两种思路:

1.通过在预训练阶段加入一个特征金字塔,将学习到的权重参数在后续识别阶段复用,来统一上下游任务的neck部分;

2.在MIM的基础上提出MFM(masked feature modeling)来更好的完成预训练任务。

二.Approach

1.Integral Pre-Training

假设预训练时使用的没有label的数据集可表示为,其中N是数据集样本的总数;而在下游fine-tuning时使用的数据集则可以表示为,其中M是数据集样本总数,对应的标签。同时假定所使用的网络包含backbone,neck和head三部分,分别表示为,,,其中为对应部分的可学习参数,而整个网络表示为.

在上述的表示体系下,原有的方法中,预训练和fine-tuning任务只共享相同的backbone,而neck和head部分均不相同。那么预训练过程可被表示为:

fine-tuning过程可被表示为:

这种思路会导致在预训练和fine-tuning之间存在transfer gap,且会有以下两个问题:

a.backbone参数无法被用于多尺度特征提取;

b.fine-tuning中都是随机初始化,可能会降低训练速度并导致参数与识别结果不匹配。

为了解决这些问题,本文作者提出加入了特征金字塔的全局网络使得预训练和fine-tining的neck部分统一,可共享参数,这样在fine-tuning时就只有是随机初始化的了。

2.Unifying Reconstruction (pre-training) and Recognition(fine-tuning)

假定HiViT包含S个stages,每个stages包含若干给transformer block。那么在逐步地下采样的过程中,HiViT会产生S+1个特征图,表示为:

其中,表示输入的embedding结果,而其它的特征图索引越小,越接近输入层。每个特征图都有特征向量构成表示为,其中表示第i个特征图的特征向量数。基于此,本文作者利用这些特征图构造了预训练和fine-tuning共同使用的neck部分:

其中,通过上采样来符合的尺寸。而分层的可学习参数则在预训练中学习后复用到fine-tuning中,大大减小了两者之间的transfer gap。值得注意的是,除了接下来讨论的loss之外,预训练和fine-tuning还有以下不同,但都不影响整体模型设计。

a.在用MIM进行预训练时,用掩模将样本中的部分区域遮盖掉。因此,在backbone和neck的输出中并不包含掩模部分,在neck输出的部分,采取添加dummy tokens的方式来完善输出,并通过一个decoder进行图像重建来完成预训练过程,

b.不同的下游fine-tuning任务中使用了不同的neck输出。例如,在图像分类中只使用了,而在图像分割中则使用.

3.Masked Feature Modeling

MFM是在MIM的基础上进行了改进。首先它继承了MIM通过掩模,用dummy tokens填充后的对图像重建的部分,这部分的损失函数可由下式表达:

在此基础上,在各层特征图的末尾都加入一个head,来进行掩模特征图的重建,其损失函数表达式如下所示:

其中,是第i层的期望输出,由一个teacherbackbone生成,一般有两种方式得到:

a.使用一个moving-averaged的encoder(不引入额外的konwledge),此时只需要将图像掩模部分输入teacher backbone

b.使用另外一个预训练模型(如CLIP等),此时将整个图像都输入到CLIP等backbone

值得注意的是,intergal train和MFM对于网络性能的优化是独立其互相补充的,这一点作者在后续的消融实验中进行了验证。整个过程的损失函数表示为:

其中为MIM的损失函数,为MFM的损失函数,为权值参数,本文取值为0.3.

4.Details

A.HiViT

本文采用的backbone为HiViT相对于传统的Swintransformer有以下两点优化:

a.用通道多层感知器(C-MLPs)代替了前几个stage的位移attention窗口;

b.移除了7*7stage,使得全局attention在14*14stage进行。

这些优化使得掩模tokens可直接由输入的得到,大大减少了计算量并提升了性能。同时,作者还使用C-MLPs代替了特征金字塔中的卷积开避免掩模时的信息泄露,在各种识别任务中都带来的性能的提升。具体的参数对比如图1所示:

图1 iTPN与其他模型的参数对比

B.MFM中的teacher model

对于二.3中的两种teacher model其具体过程是:

a. 对于第一种思路,是计算系数为0.996的在线目标模型的指数移动平均数(EMA)是从每个阶段的最后一层提取监督,因此对于任何具有与相同的空间分辨率;

b.对于第二种思路,CLIP并不产生多尺度特征图,因此是将所有的特征图降采样到最低空间尺度(14*14)加和后于CLIP的最后一层输出进行比较学习。

5.Network

整个iTPN的网络结构如下图2所示:

图2 iTPN与卷积预训练的比较

图中左侧是传统的卷积预训练,右侧是本文提出的iTPN结构。相较于左图,iTPN利用右图黄框所代表流程复用特征金字塔,使得特征金字塔成为预训练和fine-tuning共同的neck部分,用右图蓝框中的MFM补充左图蓝框中的MIM,并在特征图之间用C-MLP来代替卷积,进一步提高性能。

三.Experiments

1.settings

本文使用ImageNet-1K数据集对iTPN进行预训练。每个训练图像被预处理成224×224,并被分割成14×14个patches,每个patch大小为16×16;而在掩模过程中,75%的patches将被随机掩盖。

2.Image Classification

在ImageNet-1K分类任务中,无论是base-level model还是large-level model,使用moving-averaged的encoder或CLIP作为teachermodel,在相近的训练量下,iTPN的性能都超过了现有方法。具体结果如下图3和图4所示:

图3 base-levelmodel在ImageNet-1K上的分类结果对比

图4 large-levelmodel在ImageNet-1K上的分类结果对比

另外,为了更好地验证iTPN的性能,作者采用了线性探测的方法来进行测试,即冻结预训练的backbone,在fine-tuning时只对线性分类器进行学习。结果发现iTPN的结果还是最优,具体结果如下图5所示:

图5 linearprobing测试结果

因为,分类任务并不涉及neck部分的变换,则上述结果说明:

A.backbone和neck的联合优化可以预学习到更好的backbone;

B.iTPN的预训练backbone可以直接转移到各种视觉任务,将iTPN扩展到更多的应用场景。

3.Detection and Segmentation

无论是在COCO上做图像识别和分割任务,还是在ADE20K上语义分割,iTPN都取得了超过现有方法的性能。具体结果如图6和图7所示:

图6 base-levelmodel在COCO和ADE20K的结果对比

图7 large-levelmodel在在COCO和ADE20K的结果对比

4.Analysis

A.Ablative studies

为了验证iTPN常用的不同优化策略对性能的影响。作者将研究使用全局预训练(iPT)、load多尺度特征,MFM,C-MLP对性能的影响。具体结果如下图8和图9所示。

图8 iPT和load特征对性能的影响

上述结果说明backbone主干本身被iTPN加强了,因此它可以独立于neck转移到下游任务中。

图9 MFM和C-MLP对性能的影响

上述结果说明C-MLP和MFM 可分别独立优化性能且互为补充。

B.Visualization

图10 iTPN,w/o iPT,MAE提取的特征图对比

通过上图10的attention图对比可以发现:

a.在encoder上,iTPN显示了在ImageNet上检测完整对象并在COCO上关注所选对象的优势。这因为iTPN迫使模型保留更丰富的视觉特征(多尺度特征图),这有助于在下游产生更好的识别结果。

b.在decoder上,iTPN仍然可以实现标记之间的语义关系,从而得到更好的重构结果,这是因为经过预训练的neck聚集了多阶段的视觉特征

图11 iTPN,w/o iPT,MAE损失函数和正确率随epoch的变化

图11对于损失函数的下降过程的追踪表明:

a. 在左图在预训练的重建过程中,iTPN获得了更好的图像重建结果(即较低的重建损失值)。简单地使用hierarchical ViT(带有多尺度特征图)并不能改善重建结果,这意味着完整的预训练是主要的贡献者。

b.在右图的fine-tuning任务中,更好的物体描述有助于下游的视觉识别任务(例如,物体检测)更快地收敛并达到更高的上限

四.conclusion

在本文中,作者提出了iTPN网络(Integrally Pre-Trained TransformerPyramid Networks)。其核心贡献在于使用一个特征金字塔作为neck部分来进行预训练过程的重建并复用于fine-tuning的识别,从而最大限度地减少了预训练和fine-tuning之间的转移差距。此外,还设计了MFM来补充MIM,以更好地优化特征金字塔。iTPN在一些流行的视觉识别任务中具有优越的性能。这项工作引出了一个新的未来发展方向——为上游和下游的视觉表示学习设计一个统一的框架。

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值