关注公众号,发现CV技术之美
▊ 写在前面
在本文中,作者介绍了一种自监督视觉表示模型BEIT (B idirectional E ncoder representation from I mage T ransformers)。继BERT在自然语言处理领域开发之后,作者提出了一种用于预训练视觉Transformer的masked image modeling 任务。
具体来说,在本文的预训练中,每个图像都有两个视图,即图像 patche (如16×16像素)和视觉token (即离散token)。作者首先将原始图像“tokenize”为视觉token。然后随机mask一些图像patch,并将它们输入主干Transformer中。预训练的目标是基于损坏的图像patch恢复原始视觉token 。
在预训练BEIT之后,作者通过在预训练编码器上附加任务层,直接微调下游任务上的模型参数。在图像分类和语义分割方面的实验结果表明,该模型与以前的预训练方法相比取得了较好的效果。
▊ 1. 论文和代码地址
BEIT: BERT Pre-Training of Image Transformers
论文:https://arxiv.org/abs/2106.08254
代码:https://github.com/microsoft/unilm/tree/master/beit
▊ 2. Motivation
Transformer在计算机视觉方面取得了非常不错的性能。然而,实证研究表明,视觉Transformer比卷积神经网络需要更多的训练数据。为了解决data-hungry的问题,自监督预训练是利用大规模图像数据的一种很有前景的解决方案。
目前,BERT在自然语言处理方面取得了巨大成功。它的 masked language modeling任务首先随机mask了文本中部分token,然后根据损坏文本的Transformer编码结果恢复mask的token。
受BERT的启发,作者采用去噪自编码的思想对视觉Transformer进行预训练,这一点在CV界还没有得到很好的研究。直接对图像数据进行Bert形式的预训练是一个挑战。对于vision Transformer的输入单元,即图像patch,没有预先存在