文章目录 一、vision transformer(ViT)结构解释 二、Patch Embedding部分 2.1 图像Patch化 2.2 cls token 2.3 位置编码(positional embedding) 三、Transformer Encoder部分 (1) Multi-head Self-Attention (2) encoder block 四、head部分 五、vision transformer(ViT)完整代码 六、基于vision transformer(ViT)实现猫狗二分类项目实战 一、vision transformer(ViT)结构解释 vision transformer(ViT)结构大致流程如下图 +------------+ +--------------+ | Input | ----> | Patch | +------------+ +--------------+ | v +-------+ | Embed | +-------+ | v +-------------------+ | Transformer | +-------------------+ | v +-------+ | Pool | +-------+ | v