《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》VIT:将transformer应用到视觉领域

好喜欢上学

已于 2025-02-27 08:41:52 修改

阅读量1k

点赞数 27

分类专栏：论文阅读文章标签： transformer 深度学习人工智能

于 2025-02-26 14:52:55 首次发布

本文链接：https://blog.csdn.net/qq_73704268/article/details/145871819

版权

论文阅读专栏收录该内容

8 篇文章

订阅专栏

2.3 自监督学习在 NLP 中的应用（BERT、GPT）

3、ViT 模型架构

1️⃣图像分块 (Patch Embedding)

2️⃣类别标记（Class Token）

3️⃣位置嵌入（Position Embeddings）

4️⃣ Transformer Encoder 模块

往期：

《Attention is all you Need》-transformer模型-CSDN博客----VIT的基础，建议大家先了解

论文原文：(不知道为什么一直绑定不上资源..)[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

1、引言：为什么图像识别需要新的方法？

在深度学习领域，卷积神经网络（CNN）长期以来一直是计算机视觉（CV）任务的主力军。从 AlexNet 到 ResNet，CNN 的设计不断改进，使得模型在图像识别任务上表现越来越好。然而，CNN 在提取图像全局特征时仍存在一定局限性，主要依赖于卷积核的局部感受野。这就引出了一个问题：能否有一种方法像 NLP 中的 Transformer 一样，以全局视角理解图像？

答案就是 Vision Transformer (ViT)。Vision Transformer (ViT) 是首个在图像识别任务上超越传统卷积神经网络 (CNN) 性能的 Transformer 架构模型。

Transformer 模型自2017年提出以来，已经在自然语言处理（NLP）领域取得了革命性的进展。其核心机制——自注意力（Self-Attention）机制，使得模型能够处理序列数据中的长距离依赖问题。然而，Transformer 的应用并不局限于文本数据，而将其应用于视觉任务中最具代表性的就是 Vision Transformer（ViT）模型。

2、核心概念详解

2.1 预训练模型

预训练模型是指在大规模数据集上预先进行训练好的神经网络模型，通常在通用任务上学习到的特征可以被迁移到其他特定任务中。预训练模型的思想是利用大规模数据的信息来初始化模型参数，然后通过微调或迁移学习，将模型适应在特定的目标任务上。即在训练结束时结果比较好的一组权重值，研究人员分享出来供其他人使用。

“预训练模型” 可以理解为一个“已经学过一部分知识”的模型。举个例子，如果学习英语，先会通过一段时间学习基础的语法和词汇，这段时间就像是模型的“预训练”。然后，在这个基础上，你可能会学习更具体的内容，比如写作文、翻译等。这时，你可以用预训练的知识来加速你的学习过程。（在“GPT”中，P代表的是“Pre-trained”（预训练）的意思）

2. 2归纳偏差

归纳偏差（Inductive Bias）是指学习算法在学习过程中对数据的假设或偏好。它是一种先验知识，引导模型在面对有限的数据时，选择一种更可能正确的假设来进行学习和归纳。简单来说，就是模型在学习过程中存在的一种内在的倾向性，帮助模型从数据中学习到规律。

CNN 具有很强的归纳偏差。其中的平移等方差（Translation Invariance）是一种重要的归纳偏差。这意味着 CNN 假设图像中的物体无论在图像中的哪个位置出现，其特征表示应该是相似的。例如，在识别猫的图像时，猫在图像左上角和右下角应该有相似的特征表示被模型学习到。

局部性（Locality）也是 CNN 的归纳偏差。它假设图像的局部区域内的像素是相互关联的，并且物体的特征可以通过局部的像素组合来表示。比如，在识别物体的边缘时，CNN 可以通过卷积核扫描局部像素区域来捕捉边缘信息，而不是同时考虑整个图像的所有像素。

Transformer 主要基于自注意力机制（Self - Attention），它没有像 CNN 那样的平移等方差和局部性的归纳偏差。Transformer 在处理序列数据（如自然语言处理中的句子）时，会计算序列中每个元素与其他所有元素的关联程度，数据量少的时候可能效果不是很好。VIT模型中同样也没有用太多的归纳偏置，模型从0开始学，所以当数据集太小，效果可能不如cnn。

论文中提到大规模训练胜过归纳偏差，ViT 的成功在很大程度上归功于大规模训练。