ViT (Vision Transformer) Vit结构 Vit - 图像分块嵌入 (Patch embedding) Transformer-自注意力机制(Self Attention) Tranformer - 多头注意力机制 Transformer - 归一化 扩展 - Dert