1 核心思想
BEiT 提出了一种自监督学习图像表征的方法,核心思想是预训练任务实现 BEiT encoder 分类预测 mask patch 的 token。思路迁移自 BERT 的 encoder 结构,图像输入处理一方面将图像转为 patch 序列(ViT) ,另一方面用固定范围的 token 代替图片像素。
预训练 BERT: masked image modeling + 下游任务: image classification and semantic segmentation
思路:
-
给定图片x
-
变成 N 个image patches
-
变成 N 个visual tokens
-
随机盖住 40%的 img patches, 替换为可学习的编码
-
把盖住替换后的编码 与原始的 visual tokens 通过 BEiT 的 L层 encoder, 得到一个 h L h^L