在掩码学习中挖掘困难样本,带来稳固性能提升!今天介绍我们在自监督掩码学习(Masked Image Modeling)领域的一篇原创工作 HPM (Hard Patches Mining for Masked Image Modeling)。

  • 论文标题:Hard Patches Mining for Masked Image Modeling
  • 录用信息:CVPR 2023 ,https://arxiv.org/abs/2304.05919
  • 代码开源:https://github.com/Haochen-Wang409/HPM

各种自监督掩码学习方法的性能强烈依赖于人工定义的掩码策略,而我们提出一种新的困难样本挖掘策略,让模型自主地掩码困难样本,提升代理任务的难度,从而获得强大的表征提取能力。相关代码已开源

HPM~~_Image

Figure 1. Comparison between conventional MIM pre-training paradigm and our proposed HPM.

在典型的 MIM 方法中,模型通常专注于预测 masked patches 的某一形式的 target (例如 BEiT[1]的离散 token,MAE[2] 的 pixel RGB)。而由于 CV 信号的稠密性,MIM 方法通常需要预先定义的掩盖策略,以构造具有挑战性的自监督代理任务。否则,一个简单的插值就能完成对于 masked patches 的重建。总的来说,整个 MIM 的过程可以被认为是训练一个学生(模型),解决给定的问题(重建 masked patches),如上图 (a) 所示。

然而,我们认为,模型不应该只专注于解决给定的问题,还应该站在老师的立场上,具备自己出具挑战性问题的能力。通过创造具有挑战性的问题并解决这些问题,模型可以同时站在学生和老师的立场上,对图像内容有一个更全面的理解,从而通过产生一个高难度的代理任务来引导自己提取更加可扩展的表征。为此,我们提出了Hard Patches Mining(HPM),一个全新的MIM预训练框架,如上图 (b) 所示。

具体来说,给定一个输入图像,我们不是在人工设计的标准下生成一个 binary mask,而是首先让模型作为一个老师,自主产生掩码;然后像传统方法一样,让模型作为一个学生,让它重建 masked patches。

接下来,该问题就转化为了如何评判某一个 patch 是否为困难样本。我们自然地想到:「如果某一 patch 难以重建,即重建 loss 较大,则它为困难样本」。

HPM~~_人工智能_02

如上图所示,我们发现一张图片中 discriminative 的区域(前景)往往是难以重建的。因此,只要让模型「预测每个 patch 的重建损失」,进而 mask 掉那些高重建损失的 patch,就得到了更加具有挑战性的代理任务。

因此,我们引入了一个辅助的 loss predictor,用以预测每个 patch 的重建损失。

Method

HPM~~_人工智能_03

Figure 3. Illustration of our proposed HPM. 

HPM~~_Image_04

重建损失预测

绝对损失

HPM~~_Image_05

HPM~~_性能提升_06

HPM~~_人工智能_07

 

HPM~~_sed_08

Experiments
消融实验

这一部分,我们以 ViT-B/16 为 backbone,以 ImageNet-1K 上 pre-train 200 epochs 为默认配置。

HPM~~_性能提升_09

HPM~~_Image_10

HPM~~_人工智能_11

掩码策略的消融。我们发现,难度大的代理任务确实能够带来性能提升,但保留一定的随机性也是同样必要的。这些结论是非常直观的。直接掩盖那些预测损失最高的 patch 虽然带来了最难的问题,但图像 discriminative parts 几乎被掩盖了,这意味着 visible patches 几乎都是背景(见图2)。在没有任何提示的情况下,强迫模型只根据这些背景来重建前景是没有意义的。 

HPM~~_Image_12

HPM~~_人工智能_13

预测损失的 formulation。MSE 相较于 baseline 能够有提升,但 BCE 是一个更好的选择。 

HPM~~_性能提升_14

HPM~~_sed_15

 

HPM~~_sed_16

下面,给出了一些预测损失的可视化。可以看出,预测损失很好的反应了物体的前景部分。

HPM~~_人工智能_17

HPM~~_人工智能_18

 

HPM~~_性能提升_19

HPM~~_sed_20

参考
  1. Hangbo Bao, Li Dong, and Furu Wei. Beit: Bert pre-training of image transformers. In International Conference on Learning Representations (ICLR), 2022
  2. Kaiming He,Xinlei Chen,Saining Xie,Yanghao Li, Piotr Dollár, and Ross Girshick. Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022
  3. Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, and Han Hu. Simmim: A simple framework for masked image modeling. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022.