精读Self-Supervised Visual Representations Learning by Contrastive MaskPrediction

最新推荐文章于 2024-05-08 09:45:09 发布

格里芬阀门工

最新推荐文章于 2024-05-08 09:45:09 发布

阅读量489

点赞数

分类专栏：深度学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/qq_42578970/article/details/120757894

版权

深度学习专栏收录该内容

67 篇文章 6 订阅

订阅专栏

摘要

之前最佳的自监督视觉表征学习，主要以实例辨别（Instance Discrimination，ID）作为主要任务。这个任务暗含了实例一致性的假设，而这个假设在未加限制的数据集中不一定总是成立。本文提出了一种对比遮罩预测（Contrastive Mask Prediction，CMP）任务，并提出了新的框架MaskCo。

介绍

以往最佳的自监督视觉表征学习所采用的pretext task如上图，网络从数据库里拿出一些图像，做不同变换，预测哪两张是来自于同一张原始图像。而本文提出的方法如下图，是将一个图像裁去一块，并提供被裁去的那块图像，和本图像其他位置被裁下来的图像，和其他图像随即裁剪的部分，让系统从这些裁剪图像中找出能够填回原图的那一张小的裁剪图像。

本文提出的方法在ImageNet数据集上预训练后，性能与MoCo V2不相上下，在COCO和Conceptual Captions上预训练时，下游任务的性能便超过了MoCo

架构

如图所示，系统会选取一幅图像，生成查询视角和键值视角两幅图像，两幅图像会进行不同方式的数据增强。这两幅图图像必须要有一定面积的重叠。

查询图像会遮住一块区域，并从键值图像同样位置裁剪得到一副小的图像，作为正样本，然后从键值图像及其他不属于原始图像的图像中提取许多裁剪图像，作为负样本。来自其他图像裁剪得到的负样本要比在键值图像上裁剪得到的负样本更多。

最后通过对比损失，判断哪块裁剪图像是对应查询图像被遮罩后的图像。因为被裁剪得到的图像中，必定有一个是从查询图像对应位置裁下来的，所以这个样本必定为阳性样本，不需要有实例一致性的假设。

上面的网络通过反向传播更新参数，下面的网络则通过动量进行更新。

backbone用于提取网络特征，MPH为Mask Prediction Head，实质是几个包含了三层卷积层的残差块。个人感觉文章这部分有点乱，文中解释说backbone只会提取未被遮住区域的视觉表征，而在pretext task中，网络需要对比遮罩区域与其他所有未遮罩区域，会自然而然地学会预测mask。同时，被遮住的和为被遮住的区域有巨大的域间隙(domain gap)，所以文章提出了MPH，插在backbone和ROI之间。

因为我不了解ROI，所以实在不能理解为啥因为两种区域域间隙大就需要MPH。最后，经过ROI和投影，得到了每个图像最终用于比较的特征。将特征做L2正则化，然后即可计算损失函数

$L=-log\frac{exp(q\cdot k^{+}/\tau )}{\sum_{i=0}^{K}exp(q\cdot k_{i}/\tau )}$

其中 $\tau$ 为超参数，q为查询图像L2正则化的特征，k为各个裁剪图像L2正则化后的特征。

实验

在不同数据集上进行预训练后在不同数据集上进行下游任务的结果。IN就是Image net。竖着的为预训练用的，横向的为下游任务所用的。

不同数据集预训练后，用于IN分类任务的结果，可以看出，在COCO上训练的模型性能快速饱和，而CC上预训练的可以一直增加。

消融实验

实验一：MPH对模型的影响

MPH的有无及厚度对模型性能的影响。第一列为残差块数量，当数量为0时即为不存在MHP。可以看到，MHP对IN的分类有所帮助，但对Pascal数据集上的分割用处不大。

实验二：Mask的有无对模型的影响

这里的mask指的是对查询图像进行的掩模操作。如果不将其掩模，即不将被裁剪的部分全部修改为黑色，那么模型的pretext task会退化为图形的对比和匹配，导致性能下降。

实验三：负样本采样策略对模型的影响

本文提出的方法中，负样本即来自于其他图像，也来自于被掩模处理的图像本身。且来自于其他图像的负样本更多。实验对比了只使用本图像负样本和只使用其他图像负样本对模型的影响。inter是指其他图像，intra是指本图像。

结论

本文提出了一种全新的自监督任务CMP，并将这个任务用于本文提出的新框架MaskCo。这种方法相对于基于ID的方法，可以不对数据集有任何限制和要求，并取得了优秀的表现。为自我监督学习的最终目标开辟了一条新的道路：在数据集外进行无限数据的训练。

格里芬阀门工

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
精读Self-Supervised Visual Representations Learning by Contrastive MaskPrediction

摘要之前最佳的自监督视觉表征学习，主要以实例辨别（Instance Discrimination，ID）作为主要任务。这个任务暗含了实例一致性的假设，而这个假设在未加限制的数据集中不一定总是成立。本文提出了一种对比遮罩预测（Contrastive Mask Prediction，CMP）任务，并提出了新的框架MaskCo。介绍以往最佳的自监督视觉表征学习所采用的pretext task如上图，网络从数据库里拿出一些图像，做不同变换，预测哪两...
复制链接

扫一扫