如果觉得我的算法分享对你有帮助,欢迎关注我的微信公众号“圆圆的算法笔记”,更多算法笔记和世间万物的学习记录~
1. BEIT整体介绍
今天跟大家聊一聊ICLR 2022微软亚研院的一篇工作BEIT: BERT Pre-Training of Image Transformers(ICLR 2022)。BEIT是一种图像无监督预训练,属于最近非常火的Vision Transformer这类工作的研究方向(Vision Transformer前沿工作详细汇总可以参考历史文章从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程)。首先简单介绍一下这篇文章的整体思路:利用BERT中MLM(Masked Language Modeling)的思路,把一个图像转换成token序列,对图像token进行mask,然后预测被mask掉的图像token,实现图像领域的无监督预训练。
这个想法听起来跟BERT没有太大区别,但是想把这个思路成功应用到图像领域,并且取得效果,就不是那么容易了。接下来我们走进BEIT,看看这篇工作是如何实现将MLM预训练应用到图像领域的。我们首先介绍BEIT的原理,再对比BEIT和历史的Vision Transformer工作,如iGPT、ViT等,看看BEIT有哪些优越之处。
BEIT主要分为dVAE和基于Vision Transformer的MIM(Masked Image Modeli

本文介绍了ICLR 2022的BEIT工作,它将BERT的MLM预训练思想扩展到计算机视觉领域,通过dVAE实现图像离散化,并基于Vision Transformer进行无监督学习。BEIT对比历史工作如iGPT、ViT等,显示了在图像无监督预训练方面的优势。
最低0.47元/天 解锁文章
1724

被折叠的 条评论
为什么被折叠?



