自监督学习论文解读|SimMIM：一个用于掩模图像建模的简单框架

IISGLab

已于 2023-07-03 09:49:21 修改

阅读量346

点赞数

文章标签：深度学习机器学习人工智能

于 2023-07-03 09:48:50 首次发布

本文链接：https://blog.csdn.net/sinat_38225756/article/details/131509904

版权

文章地址：https://arxiv.org/abs/2111.09886

代码地址：GitHub - microsoft/SimMIM: This is an official implementation for "SimMIM: A Simple Framework for Masked Image Modeling".

1 摘要

本文介绍了SimMIM，这是一个用于掩模图像建模的简单框架。我们简化了最近提出的相关方法，而不需要特殊的设计，例如通过离散VAE或聚类进行分块掩蔽和标记化。为了研究是什么使掩蔽图像建模任务学习良好的表示，我们系统地研究了我们框架中的主要组件，并发现每个组件的简单设计都揭示了非常强的表示学习性能：1）对具有适度大的掩蔽补丁大小（例如，32）的输入图像进行随机掩蔽，可以生成强大的文本前任务；2）通过直接回归预测原始像素的RGB值并不比具有复杂设计的补丁分类方法差；3）预测头可以像线性层一样轻，性能不会比较重的预测头差。使用ViT-B，我们的方法通过在该数据集上进行预训练，在ImageNet-1K上实现了83.8%的top 1微调精度，超过了以前的最佳方法+0.6%。当应用于具有约6.5亿个参数的更大模型SwinV2H时，仅使用ImageNet-1K数据，它在ImageNet-1 K上就实现了87.1%的top 1精度。我们还利用这种方法来解决大规模模型训练所面临的数据匮乏问题，即3B模型（SwinV2-G）被成功训练，以在四个具有代表性的视觉基准上实现最先进的精度，使用的标记数据比以前的实践（JFT-3B）少40倍。

2 文章思路

类似于 MAE ，SimMIM 也是基于 mask 建模的一种框架，但是该框架更简单。整体框架来说，SimMIM 主要步骤为 mask 输入图片，将图像输入 encoder ，再经过一个 predictor head 即可得到输出结果，只将 encoder 用于下游任务。

与 MAE 相对比，二者区别在于：

MAE 的 mask patch size 大小和切割图像的 patch size 大小一致，SimMIM 的 mask patch size 比切割图像的 patch size 大，为其整数倍；即 SimMIM 中可以屏蔽多个图像的小 patch 例如：下图中蓝色格子表示图像切割的 patch ，橙色阴影表示 mask patch
MAE 的 encoder 和 decoder 均采用 transformer 结构，SimMIM 只在 encoder 中使用了 transformer ，预测任务由一个简单的 predictor 承担，相当于 decoder 只使用了一层 MLP

3 创新点

在本文中，我们提出了一个简单的框架，该框架与视觉信号的性质非常一致，并且能够学习与以前更复杂的方法类似甚至更好的表示：输入图像块的随机掩蔽，使用线性层将掩蔽区域的原始像素值与l1损失。这个简单框架背后的关键设计和见解包括：

随机掩蔽应用于图像 patch ，这对视觉 Transformer 来说既简单又方便。对于掩蔽

最低0.47元/天解锁文章

IISGLab

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
自监督学习论文解读|SimMIM：一个用于掩模图像建模的简单框架

本文介绍了SimMIM，这是一个用于掩模图像建模的简单框架。我们简化了最近提出的相关方法，而不需要特殊的设计，例如通过离散VAE或聚类进行分块掩蔽和标记化。为了研究是什么使掩蔽图像建模任务学习良好的表示，我们系统地研究了我们框架中的主要组件，并发现每个组件的简单设计都揭示了非常强的表示学习性能：1）对具有适度大的掩蔽补丁大小的输入图像进行随机掩蔽，可以生成强大的文本前任务；2）通过直接回归预测原始像素的RGB值并不比具有复杂设计的补丁分类方法差；3）预测头可以像线性层一样轻，性能不会比较重的预测头差。
复制链接

扫一扫