ICLR 2021
0 前言
说到图像处理,一般想到的就是CNN/CNN的变体
机器学习笔记:CNN卷积神经网络_UQI-LIUWJ的博客-CSDN博客
。ViT的想法是利用Transformer机制来替换CNN机制,将Transformer运用到图像分类中。
机器学习笔记:Transformer_UQI-LIUWJ的博客-CSDN博客
1 图像转成句子(图片 token化)
将图像分割成小块(image patch),并将这些块转化为序列,作为Transformer的输入。
图像块(image patches)相当于NLP任务中的单词(token)来做处理。以有监督的方式训练图像分类模型。
- 比如一张原始图像
,分辨率是H×W,通道数是C
- 我们将其分割成P×P的patch组成的序列
2 整体流程
和Transformer的encoder流程差不多