【AI大模型】一文详解 Vision Transformers 原理与应用,收藏这一篇就够了!!

前言

Vision Transformers (ViTs) 代表了计算机视觉领域的突破性变革,它利用了彻底革新自然语言处理的自注意力机制。与依赖分层特征提取的传统卷积神经网络(CNN) 不同,ViT 将图像视为更小块的序列,从而能够捕捉视觉数据中的全局关系和长距离依赖关系。这种独特的方法在图像分类、目标检测和生成建模等任务中展现出卓越的性能,使 ViT 成为推进人工智能驱动图像分析的强大工具。其多功能性和可扩展性使其成为不断发展的计算机视觉领域中的一项关键创新。

什么是Vision Transformers

图片

​ Transformer 是一种强大的深度学习架构,最初是为自然语言处理 (NLP) 任务(例如机器翻译、文本摘要和情感分析)而开发的。Transformer 的核心是编码器-解码器结构,其中编码器处理输入序列(例如句子)并创建丰富的上下文表示,而解码器则基于此表示生成输出序列。

图片

​ Transformer 背后的关键创新在于自注意力机制,该机制允许模型权衡序列中每个元素相对于其他元素的重要性,从而捕捉局部和长距离依赖关系,而无需依赖循环或卷积运算。这种设计使 Transformer 能够并行处理整个序列,从而显著提升效率和性能,超越 RNN 和 LSTM 等先前的架构。

​ 2021 年,谷歌研究院在里程碑式论文《一张图片胜过 16x16 个单词》中推出了 ViT,ViT 将这种变革性方法从语言数据应用到视觉数据。正如传统的 Transformer 将句子分解成单词 token 一样,ViT 将图像划分为固定大小的 patch,并将每个 patch 视为一个“视觉 token”。然后,这些 patch 被线性嵌入,并补充位置编码以保留空间信息——这与 NLP Transformer 中单词的嵌入和排序方式如出一辙。

​ 图像块嵌入序列被输入到 Transformer 编码器中,自注意力机制在其中学习图像不同区域之间的关系,就像它们捕捉句子中单词之间的依赖关系一样。一个特殊的分类标记(类似于 NLP 模型中的 [CLS] 标记)用于聚合来自所有图像块的信息,以用于图像级任务。通过这种类比,Vision Transformer 利用了彻底改变语言理解的相同架构,在图像识别领域取得了最先进的成果,展现了 Transformer 框架在不同领域的多功能性和强大功能。

Vision Transf****ormers工作原理

​ ViT 通过重新构想图像的处理和理解方式,将 Transformer 架构的强大功能带入计算机视觉领域。ViT 并非依赖卷积来提取特征,而是将图像视为图像块序列,并利用自注意力机制来捕捉整幅图像中的关系。这种方法使其能够对局部和全局依赖关系进行建模,从而在各种视觉任务中取得令人瞩目的性能。

图片

以下是 ViT 核心架构的细分:

    • 图像块创建: Vision Transformer 的第一步是将输入图像分割成由固定大小的小块组成的网格(例如,每个块 16x16 像素)。然后将每个块展平为一维向量,从而有效地将二维图像转换为一系列块向量。
    • **块的线性嵌入:**每个块向量经过一个线性层(一个简单的神经网络层),将其投影到更高维空间。此过程会创建一个嵌入序列,每个块对应一个嵌入,类似于句子中的单词在 NLP Transformer 中的嵌入方式。
    • **添加位置编码:**由于 Transformer 本身无法理解图像块的顺序或位置,因此需要在每个图像块嵌入中添加位置编码。这些编码注入了每个图像块空间位置的信息,帮助模型保留原始图像的结构。
    • **Transformer 编码器:**图像块嵌入序列现已丰富了位置信息,并被输入到标准的 Transformer 编码器中。该编码器由多层多头自注意力和前馈神经网络组成。通过自注意力机制,该模型学习不同图像块之间的关联,从而捕捉图像中的局部和全局模式。
    • **分类标记:**一个特殊的可学习标记,通常称为“分类标记”或 [CLS] 标记,被添加到块嵌入序列的前面。经过 Transformer 层后,与该标记对应的输出将用作图像的整体表示,用于分类等任务。

ViT 中的关键组件包括:

    • **自注意力机制:**自注意力机制是 Transformer 架构的核心。它允许模型动态地权衡每个块相对于所有其他块的重要性,从而能够捕捉整个图像中复杂的依赖关系和上下文信息。
    • **多头注意力机制:**ViT 并非依赖于单一的注意力机制,而是并行使用多个注意力“头”。每个头可以关注图像的不同方面或区域,从而使模型能够学习更丰富、更多样化的关系。

图片

    • **前馈网络:**在自注意力层之后,每个块嵌入都会由前馈神经网络进一步处理。此步骤有助于模型捕捉更复杂的模式和表征。
    • 层归一化和残差连接: 为了稳定训练并提升性能,每个 Transformer 层都使用层归一化和残差(跳跃)连接。这些技术有助于维持深度网络中信息和梯度的流动。

视觉 Transformers 与 CNN

​ ViT 和 CNN 代表了计算机视觉领域的两种截然不同的范式。CNN 长期以来一直是图像分析的支柱,利用卷积层提取局部特征并构建层次化表征。它们的归纳偏差(例如局部性和平移不变性)使其在数据和计算资源有限的任务中非常有效。

​ 相比之下,Vision Transformers 从一开始就使用自注意力机制来建模图像块之间的全局关系,从而使其能够捕捉图像中的长距离依赖关系和整体上下文。这种全局视角使 ViT 在大规模数据集和需要全面理解视觉内容的任务上的表现优于 CNN。

​ 然而,ViT 通常需要更多数据才能有效训练,并且通常计算量更大,尤其是在更高分辨率下。下表总结了两种架构之间的主要区别:

图片

Vision Transformers 的应用

​ ViT 已成功应用于从医学成像到生成式 AI 的多个领域,彻底改变了这些领域的最新技术。让我们来看一些示例应用。

医学成像

​ LVM-Med (NeurIPS 2023)框架展示了 ViT 如何通过突破传统 CNN 的关键局限性,在医学成像领域取得卓越成就。与依赖分层卷积层提取局部特征的 CNN 不同,ViT 将图像处理为块序列,从而能够对整个医学扫描图像的全局关系进行建模。这种能力在肿瘤检测或器官分割等任务中尤为有利,因为这些任务中的异常可能跨越较远的区域。

图片

LVM-Med 中使用的 ViT 的主要创新在于:

    • 全局上下文建模: LVM-Med 利用 ViT 的自注意力机制来分析非相邻图像块之间的交互。例如,在脑部 MRI 分割中,ViT 能够捕捉肿瘤区域与周围组织之间的长距离依赖关系,其表现优于专注于局部模式的 CNN。
    • **局部与全局特征的融合:**该框架将块级嵌入与位置编码相结合,在保留空间信息的同时实现整体理解。这种双重关注提升了糖尿病视网膜病变分级等细粒度任务的性能,因为在这些任务中,微血管细节和整体眼底结构都至关重要。
    • 有限数据下的可扩展性: ViT 通常需要大量数据集,而 LVM-Med 则通过对 55 个数据集中的 130 万张医学图像进行自监督预训练,从而缓解了这一问题。通过将图像视为块序列,ViT 在针对较小、特定领域的数据集(例如罕见癌症亚型)进行微调时,其泛化能力优于 CNN。
    • 通过图匹配实现结构鲁棒性: LVM-Med 引入了一个二阶图匹配目标函数,用于对齐转换后图像对的特征嵌入。该方法由 ViT 灵活的基于 token 的架构支持,可增强局部(例如细胞核)和全局(例如器官边界)结构的一致性。

​ LVM-Med中的 ViT始终优于基于 ResNet-50 CNN 的方法。以下是一些定量对比:

​ **分割:**在 BMC 前列腺分割数据集上,LVM-Med 的 ViT 获得了 95.75% 的 Dice 得分,比基于 CNN 的方法高出约 15%。ViT 对整体肿瘤边缘的建模能力降低了不规则形状病变的假阳性率。

图片

​ **分类:**对于糖尿病视网膜病变分级,ViT 比最先进的模型提高了准确性,展示了对医疗领域转变的卓越适应性。

图片

​ **数据效率:**在 LVM-Med 数据集上预训练的 ViT 在低数据场景中表现优于 CNN(约 11%),例如,仅使用 647 个训练样本,在乳腺超声分割中实现了 89.69% 的 Dice 率。

​ LVM-Med 证明,ViT 对医学成像效果更佳,因为:

    • **减少归纳偏差:**与 CNN 不同,ViT 缺乏关于局部空间层次的内置假设,这使得它们更适应不同的医疗模式(例如,3D MRI 与 2D X 射线)。
    • 多尺度注意力: ViT 动态权衡不同尺度的斑块之间的关系,这对于在肺结节检测等任务中检测不同大小的病变至关重要。

自动驾驶

​ HM-ViT(ICCV 2023)解决了自动驾驶领域的一项关键挑战:在动态的现实世界交通中,车辆可能配备不同类型的传感器(例如激光雷达或摄像头),从而实现稳健、可扩展且灵活的感知。与假设所有车辆都使用相同传感器模式的传统方法不同,HM-ViT 引入了一个统一的框架,允许异构智能体共享和融合信息,从而显著提升感知能力,尤其是在存在遮挡或单个传感器覆盖范围有限的场景下。

图片

​ HM-ViT 的核心是一种新颖的异构 3D 图变换器架构。每辆车,无论其传感器类型如何,首先使用特定于模态的编码器提取鸟瞰图 (BEV) 特征。这些特征被压缩,传输到邻近车辆,然后解压进行融合。融合过程由 HM-ViT 模块执行,该模块使用专门的局部和全局注意力机制(异构 3D 图注意力机制)来联合推理智能体间和智能体内的交互。这种设计使模型能够捕捉细粒度的物体细节(局部注意力机制)和更广泛的环境背景(全局注意力机制),同时在整个过程中保持每种传感器模态的独特特性。

图片

​ 在此背景下,ViT 的强大之处在于它们能够灵活地在动态和异构协作图之间建模关系,而基于 CNN 或固定结构的融合方法则难以做到这一点。HM-ViT 基于注意力的架构可以动态适应不同数量和类型的代理,处理摄像头和激光雷达数据之间的空间错位和语义差异。在 OPV2V 数据集上进行的大量实验表明,HM-ViT 的表现显著优于最先进的合作感知方法,尤其是在与配备激光雷达的代理协作时提高了仅有摄像头的车辆的性能(例如,对于有激光雷达协作者的摄像头代理,将 AP@0.7 从 2.1% 提高到 53.2%)。这表明 ViT 不仅有效,而且对于在异构自动驾驶环境中构建可靠、经济高效和可扩展的感知系统至关重要,为超越基于 CNN 的方法限制的多代理合作设立了新标准。

图片

3D视觉

​ 3D-VisTA,即 3D 视觉与文本对齐 (ICCV 2023),展示了 Vision Transformers 如何显著简化和改进 3D 视觉语言任务。与早期依赖于复杂、特定于任务的模块和额外损失的 3D 视觉语言模型不同,3D-VisTA 使用统一的 Transformer 架构,并结合自注意力机制进行 3D 场景和文本建模及其融合。这使得该方法更加简单,更具通用性。

图片

​ 该模型在 ScanScribe(一个包含 3D 场景和文本的大规模数据集)上进行了预训练,使用了掩码语言模型、掩码对象模型和场景文本匹配等自监督目标。这种预训练使 3D-VisTA 能够学习强大的 3D 文本对齐能力,从而在 3D 视觉基础、密集字幕、问答和情境推理等一系列任务上取得了最佳效果。

图片

​ 在 3D-VisTA 中使用 ViT 的主要优势:

    • 统一、简单的架构:无需手工制作的模块或辅助损失——只需自我注意。
    • 灵活的多任务学习:同一个模型可以轻松适应各种3D视觉语言任务。
    • 数据效率:即使特定任务的数据有限,预训练也能使模型变得稳健。
    • 卓越的性能:3D-VisTA 在多个基准测试中取得了最佳成绩,证明了 ViT 作为 3D 视觉基础模型的强大功能。

图片

生成式AI

​ 在扩散模型出现之前,ViT通过解决时空数据固有的复杂性彻底改变了MAGVIT和Latte等生成式 AI 模型。

​ MAGVIT:蒙版生成视频转换器

图片

​ MAGVIT模型中的核心机制是:

    • 3D 标记化:MAGVIT 使用 3D-VQ 编码器将视频量化为离散的时空标记,将视频视为块序列(例如,16×16×16 体素)。这与 ViT 在处理序列数据方面的优势相一致。
    • 掩码标记建模 (MTM):受 BERT 启发,MAGVIT 训练双向 Transformer 来预测潜在空间中的掩码标记。COMMIT 方法将特定于任务的条件(例如部分帧)嵌入到掩码中,从而实现多任务学习(帧预测、图像修复等)。
    • 非自回归解码:并行生成视频(12 步),推理速度比自回归模型快 60 倍。ViTs 的并行处理避免了 RNN/CNN 的顺序瓶颈。

​ ViT 主干网的贡献:

    • **全局背景:**自我注意力捕捉跨帧和像素的长距离依赖关系,这对于相干运动合成至关重要。
    • **可扩展性:**通过 3D 压缩减少标记序列长度,有效处理高分辨率视频(128×128)。
    • **多任务灵活性:**单个 ViT 主干通过根据条件动态屏蔽/细化令牌来支持 10 多个任务。

图片

图片

ViT 的最新进展

​ 过去几年中,ViT 得到了迅速发展,研究重点是通过创新的自我监督学习技术使其更加高效、轻量和适应性更强。

​ 现代视觉感知技术 (ViT) 越来越多地融入多模态系统,将视觉、语言和音频相结合,用于执行视觉问答和交互式图像生成等任务。如今,自适应架构能够根据不同图像区域的复杂性动态分配计算资源,从而优化效率和效果。

图片

下面我们来看一下塑造 ViT 格局的最重要的进步。

高效的架构

​ 最初的 ViT 模型计算量巨大,需要大量数据集进行预训练。近年来,像 Swin Transformer 这样的高效架构蓬勃发展,它引入了分层结构并移动窗口来降低计算成本,同时在目标检测和分割等密集预测任务上保持了强劲的性能。

​ 较新的模型融合了结构化状态空间模型和选择性注意机制,进一步降低了内存和计算需求。这些进步使虚拟训练模型 (ViT) 能够更有效地处理高分辨率图像和视频,使其能够适用于对速度和准确性要求极高的实际应用。

​ 例如,LaViT (CVPR 2024) 并未在每一层都计算完整的自注意力机制(由于其平方复杂度,计算成本高昂),而是在每个阶段仅计算少数几个初始层。后续层通过轻量级线性运算重用并转换先前计算的注意力分数,从而显著减轻计算负担。此外,LaViT 还包含防止注意力饱和(即注意力图在更深的层中变得冗余)的机制,并使用专门的损失函数来保留注意力矩阵的有意义结构。

图片

​ 该设计在分类、检测和分割任务上实现了最先进的性能,同时与标准和其他高效的 ViT 相比降低了 FLOP 和内存使用量,使 ViT 更适合实际应用和在资源受限的设备上部署。

图片

轻量级模型

​ 轻量级虚拟测试 (ViT) 的推动促成了利用剪枝、量化和低秩近似的模型的开发。这些技术在不牺牲准确性的情况下减少了参数数量和计算开销,从而能够在边缘设备和资源受限的环境中部署。

​ 混合模型将卷积层(用于局部特征提取)的优势与 ViT 的全局推理能力相结合,如今已越来越受欢迎。这种方法在保持效率的同时,增强了模型捕捉精细和广泛视觉模式的能力。知识提炼和硬件感知训练策略也被用于构建适用于移动和物联网平台的紧凑型 ViT 模型。

​ DC-AE,即深度压缩自动编码器 (ICLR 2025),开发了一个框架,使 ViT 变得轻量级,尤其是在高分辨率扩散模型中。DC-AE 通过大幅提高自动编码器的空间压缩比(最高可达 128 倍)来实现这一点,从而减少了 ViT 必须处理的 token 数量。这种 token 的减少至关重要,因为 ViT 的计算和内存成本与 token 数量呈二次方增长,尤其对于大型图像而言。

图片

​ 为了在如此高的压缩率下保持重建质量,本文提出了两种技术:残差自动编码,通过让网络学习基于空间到通道变换的残差来简化优化;解耦高分辨率自适应,这是一种三阶段训练策略,可以使模型适应高分辨率数据,而无需繁重的训练成本或质量损失。

图片

​ 因此,DC-AE 能够使基于 ViT 的扩散模型在训练和推理方面实现显著加速(最高可达 19 倍),同时占用更少的内存,且不会牺牲图像质量。这使得 ViT 在高分辨率和资源受限的应用中更加实用。

图片

自监督学习

​ 自监督学习 (SSL) 已成为 ViT 研究的基石,它使模型能够从未标记的数据中学习丰富的视觉表征。诸如掩蔽自编码器 (MAE) 之类的方法已被证明特别有效——通过掩蔽大量输入块并训练模型来重建它们,ViT 无需标记数据集即可学习全局和局部特征。

​ 对比学习和多模态方法(例如 CLIP)进一步增强了 ViT 跨任务和模态的泛化能力,包括视觉-语言对齐和跨模态检索。最近的 SSL 技术专注于局部特征学习,提高了 ViT 对目标检测和分割等下游任务的迁移能力,在这些任务中,细粒度理解至关重要。

​ 例如, Facebook AI 研究院的MAViL(NeurIPS 2023)通过统一掩蔽自编码 (MAE)、对比学习和自训练来学习鲁棒的视听表征,从而彻底改变了自监督学习。与传统方法不同,MAViL 将音频频谱图和视频帧作为块序列进行处理,并使用融合编码器来整合跨模态上下文。

图片

​ 关键创新包括通过两阶段自训练过程(其中教师模型引导蒙版学生输入)重建对齐的、语境化的表征,以及通过对 20% 可见标记进行操作来保持效率的蒙版对比学习。这种方法能够捕捉局部和全局依赖关系,使 MAViL 在音视频分类(AudioSet 数据集上 mAP 为 53.3,VGGSound 数据集上准确率为 67.1%)和检索任务上的表现超越先前的模型,同时在纯音频场景下也表现出色(ESC-50 数据集上准确率为 94.4%)。

图片

Vision Transformers的挑战和局限性

​ 虽然 Vision Transformers 为视觉理解开辟了新视野,但它们的广泛应用受到一些挑战的制约,研究人员正在努力积极应对这些挑战:

    • **数据匮乏:**视觉感知图 (ViT) 高度依赖数据,通常需要海量数据集(有时甚至超过 1400 万张图像)才能实现最佳性能。卷积神经网络 (CNN) 凭借强大的归纳偏差,能够从较小的数据集中很好地泛化,而视觉感知图 (ViT) 则依赖于直接从数据中学习大部分视觉先验知识。这使得它们在标注数据有限的情况下容易出现过拟合或结果不佳,尤其是在医学成像或遥感等专业领域。
    • 可解释性: ViT 的可解释性仍然是一个重大障碍。它们的决策过程受复杂的自注意力机制控制,与 CNN 的特征图和滤波器相比,透明度较低。ViT 中的注意力图可能难以分析,并且并非总能为模型预测提供清晰的解释,这使得在医疗保健或自动驾驶等敏感应用中建立信任变得极具挑战性。
    • **硬件需求:**ViT 计算量巨大,尤其是在处理高分辨率图像或长序列的块时。自注意力机制的复杂度相对于 token 数量呈二次方增长,导致 GPU 内存占用率高,推理时间增加。这给在资源受限的设备或实时场景中部署 ViT 带来了挑战,通常需要专门的硬件或算法优化才能使其切实可行。
    • **对空间变换的敏感性:**除非明确训练 ViT 保持此类不变性,否则 ViT 对空间变换(例如旋转或镜像)的鲁棒性可能较差。与固有编码平移不变性的 CNN 不同,ViT 可能难以应对分布外的视觉变化,从而影响其在动态环境中的泛化能力。
    • **局部结构和纹理表示:**虽然 ViT 擅长捕捉全局上下文,但它们可能会忽略细粒度的局部纹理和高频细节,而这些细节对于医学诊断或基于纹理的分类等任务至关重要。这种限制可能会导致图像生成和恢复任务中的输出失真或细节不足。
    • **训练复杂性和稳定性:**与 CNN 相比,训练 ViT 更具挑战性,需要仔细调整超参数、更大的批量大小和更长的训练时间才能实现收敛和稳定性。

计算机视觉中的 Vision Transformers

​ ViT 迅速改变了计算机视觉的格局,为传统卷积架构提供了一种灵活而强大的替代方案。其对全局依赖关系的建模、跨模态自适应以及数据扩展的能力,推动了图像分类、视频合成、医学成像、自动驾驶和 3D 视觉领域的突破。近期的进展——例如高效轻量级的架构、自监督学习策略以及多模态集成——进一步扩展了 ViT 的应用范围,使其适用于大规模应用。

​ 然而,这条道路并非一帆风顺。视觉理解(ViT)对海量数据集的需求、高计算需求以及可解释性障碍仍然是研究的热点。然而,正如 MAViL 等前沿框架所证明的那样,该领域正在快速创新,以克服这些障碍。MAViL 将掩蔽自编码和对比学习结合起来,实现了稳健的视听表征。随着视觉理解的不断发展,它们有望成为视觉理解的基础模型,为各行各业的下一代智能系统提供动力。

最后的最后

感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。

为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。

这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。

这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

大模型知识脑图

为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

经典书籍阅读

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

在这里插入图片描述

实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

面试资料

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

在这里插入图片描述

640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值