字节&约翰斯·霍普金斯&上交提出iBOT框架,基于MIM进行自监督训练,在ImageNet-1K上达到86.3%的微调精度!...

关注公众号,发现CV技术之美

 写在前面

语言Transformer的成功主要归功于masked language modeling(MLM) 的预训练任务,其中文本首先被标记为语义上有意义的片段。在这项工作中,作者研究了masked image modeling(MIM) ,并指出了使用语义上有意义的视觉标记器(visual tokenizer) 的优势和挑战。作者提出了一个自监督的框架iBOT ,它可以通过在线标记器(online tokenizer) 执行mask预测。

具体而言,作者对masked patch tokens进行自蒸馏,并将教师网络作为在线标记器,同时对class token进行自蒸馏以获得视觉语义。在线标记器可与MIM目标共同学习,无需多阶段训练pipeline,其中tokenizer需要事先进行预训练。

作者通过在ImageNet-1K上实现81.6%的linear probing精度和86.3%的微调精度,展示了iBOT的有效性。除了SOTA的图像分类结果外,作者还强调了局部语义模式,这有助于模型获得针对常见损坏的强大鲁棒性,并在密集的下游任务(例如,目标检测、实例分割和语义分割)上取得SOTA的结果。

 1. 论文和代码地址

e09d763471235b7b519a84497ee9a9b9.png

iBOT: Image BERT Pre-Training with Online Tokenizer

论文地址:https://arxiv.org/abs/2111.07832

代码地址:未开源

 2. Motivation

Masked Language Modeling(MLM) 是一种流行的语言模型预训练范式,它首先随机mask然后重建一组输入token。MLM预训练的Transformer已证明了其可扩展到大容量模型和数据集,目前成为语言任务的有效方法。

然而,视觉Transformer(ViT)的潜力最近开始彻底改变计算机视觉研究,但在很大程度上还没有得到充分的开发。目前视觉任务中的大多数无监督训练都是基于全局视图,忽略了图像的内部结构,这与MLM的局部建模是不同的

在本文中,作者探索了与MLM相似的Masked Image Mod

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值