ViT(Vision Transformer)中的Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings。
假设输入图像的维度为HxWxC,分别表示高,宽和通道数。
Patch Embeeding操作将输入图像分成N个大小为的patch,并reshape成维度为Nx(
)的patches块
,
。其中
,表示分别在二维图像的宽和高上按P进行划分,每个patch块的维度为
,再通过线性变换将patches投影到维度为D的空间上,也就是直接将原来大小为HxWxC的二维图像展平成N个大小为