字节&约翰斯·霍普金斯&上交提出iBOT框架，基于MIM进行自监督训练，在ImageNet-1K上达到86.3%的微调精度！...

最新推荐文章于 2023-12-19 20:39:25 发布

我爱计算机视觉

最新推荐文章于 2023-12-19 20:39:25 发布

阅读量647

点赞数

文章标签：网络计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/121882351

版权

关注公众号，发现CV技术之美

▊ 写在前面

语言Transformer的成功主要归功于masked language modeling（MLM） 的预训练任务，其中文本首先被标记为语义上有意义的片段。在这项工作中，作者研究了masked image modeling（MIM） ，并指出了使用语义上有意义的视觉标记器（visual tokenizer） 的优势和挑战。作者提出了一个自监督的框架iBOT ，它可以通过在线标记器（online tokenizer） 执行mask预测。

具体而言，作者对masked patch tokens进行自蒸馏，并将教师网络作为在线标记器，同时对class token进行自蒸馏以获得视觉语义。在线标记器可与MIM目标共同学习，无需多阶段训练pipeline，其中tokenizer需要事先进行预训练。

作者通过在ImageNet-1K上实现81.6%的linear probing精度和86.3%的微调精度，展示了iBOT的有效性。除了SOTA的图像分类结果外，作者还强调了局部语义模式，这有助于模型获得针对常见损坏的强大鲁棒性，并在密集的下游任务（例如，目标检测、实例分割和语义分割）上取得SOTA的结果。

▊ 1. 论文和代码地址

iBOT: Image BERT Pre-Training with Online Tokenizer

论文地址：https://arxiv.org/abs/2111.07832

代码地址：未开源

▊ 2. Motivation

Masked Language Modeling（MLM） 是一种流行的语言模型预训练范式，它首先随机mask然后重建一组输入token。MLM预训练的Transformer已证明了其可扩展到大容量模型和数据集，目前成为语言任务的有效方法。

然而，视觉Transformer（ViT）的潜力最近开始彻底改变计算机视觉研究，但在很大程度上还没有得到充分的开发。目前视觉任务中的大多数无监督训练都是基于全局视图，忽略了图像的内部结构，这与MLM的局部建模是不同的 。

在本文中，作者探索了与MLM相似的Masked Image Mod

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
字节&约翰斯·霍普金斯&上交提出iBOT框架，基于MIM进行自监督训练，在ImageNet-1K上达到86.3%的微调精度！...

关注公众号，发现CV技术之美▊写在前面语言Transformer的成功主要归功于masked language modeling（MLM）的预训练任务，其中文本首先被标记为语义上有意义...
复制链接

扫一扫