Vision Transformer 原理与代码实例讲解 作者:禅与计算机程序设计艺术 1. 背景介绍 1.1 视觉任务的挑战 1.2 从CNN到Transformer 1.3 Vision Transformer的诞生 2. 核心概念与联系 2.1 Self-Attention机制 2.1.1 Scaled Dot-Product Attention 2.1.2 Multi-Head Attention 2.1.3 Positional Encoding 2.2 Transformer结构 2.2.1 Encoder 2.2.2 Decoder 2.2.3 Transformer在NLP中的应用 2.3 Vision Transformer (ViT) 2.3.1 图像分块与线性投影 2.3.2 ViT的整体架构 2.3.3 ViT与CNN的比较