ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

原创

已于 2022-04-05 15:58:50 修改 · 4.8k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #transformer #计算机视觉

于 2022-03-26 09:24:34 首次发布

本文介绍了ICLR 2022的BEIT工作，它将BERT的MLM预训练思想扩展到计算机视觉领域，通过dVAE实现图像离散化，并基于Vision Transformer进行无监督学习。BEIT对比历史工作如iGPT、ViT等，显示了在图像无监督预训练方面的优势。

如果觉得我的算法分享对你有帮助，欢迎关注我的微信公众号“圆圆的算法笔记”，更多算法笔记和世间万物的学习记录～

1. BEIT整体介绍

今天跟大家聊一聊ICLR 2022微软亚研院的一篇工作BEIT: BERT Pre-Training of Image Transformers（ICLR 2022）。BEIT是一种图像无监督预训练，属于最近非常火的Vision Transformer这类工作的研究方向（Vision Transformer前沿工作详细汇总可以参考历史文章从ViT到Swin，10篇顶会论文看Transformer在CV领域的发展历程）。首先简单介绍一下这篇文章的整体思路：利用BERT中MLM（Masked Language Modeling）的思路，把一个图像转换成token序列，对图像token进行mask，然后预测被mask掉的图像token，实现图像领域的无监督预训练。

这个想法听起来跟BERT没有太大区别，但是想把这个思路成功应用到图像领域，并且取得效果，就不是那么容易了。接下来我们走进BEIT，看看这篇工作是如何实现将MLM预训练应用到图像领域的。我们首先介绍BEIT的原理，再对比BEIT和历史的Vision Transformer工作，如iGPT、ViT等，看看BEIT有哪些优越之处。

BEIT主要分为dVAE和基于Vision Transformer的MIM（Masked Image Modeli