BEIT：基于图像重建进行预训练！微软提出BEIT，Top-1准确率达86.3%！代码已开源！...

最新推荐文章于 2024-06-24 19:53:48 发布

我爱计算机视觉

最新推荐文章于 2024-06-24 19:53:48 发布

阅读量3k

点赞数 1

文章标签：算法 python 计算机视觉神经网络机器学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/121586379

版权

本文介绍了微软提出的BEIT模型，该模型受BERT启发，采用masked image modeling预训练视觉Transformer，提升计算机视觉任务性能。在图像分类和语义分割等下游任务中表现优秀，代码已开源。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

▊ 写在前面

在本文中，作者介绍了一种自监督视觉表示模型BEIT （B idirectional E ncoder representation from I mage T ransformers）。继BERT在自然语言处理领域开发之后，作者提出了一种用于预训练视觉Transformer的masked image modeling 任务。

具体来说，在本文的预训练中，每个图像都有两个视图，即图像 patche （如16×16像素）和视觉token （即离散token）。作者首先将原始图像“tokenize”为视觉token。然后随机mask一些图像patch，并将它们输入主干Transformer中。预训练的目标是基于损坏的图像patch恢复原始视觉token 。

在预训练BEIT之后，作者通过在预训练编码器上附加任务层，直接微调下游任务上的模型参数。在图像分类和语义分割方面的实验结果表明，该模型与以前的预训练方法相比取得了较好的效果。

▊ 1. 论文和代码地址

BEIT: BERT Pre-Training of Image Transformers

论文：https://arxiv.org/abs/2106.08254
代码：https://github.com/microsoft/unilm/tree/master/beit

▊ 2. Motivation

Transformer在计算机视觉方面取得了非常不错的性能。然而，实证研究表明，视觉Transformer比卷积神经网络需要更多的训练数据。为了解决data-hungry的问题，自监督预训练是利用大规模图像数据的一种很有前景的解决方案。

目前，BERT在自然语言处理方面取得了巨大成功。它的 masked language modeling任务首先随机mask了文本中部分token，然后根据损坏文本的Transformer编码结果恢复mask的token。

受BERT的启发，作者采用去噪自编码的思想对视觉Transformer进行预训练，这一点在CV界还没有得到很好的研究。直接对图像数据进行Bert形式的预训练是一个挑战。对于vision Transformer的输入单元，即图像patch，没有预先存在

最低0.47元/天解锁文章

我爱计算机视觉

关注

1
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫