目录
(一)ViT:Transformer 引入计算机视觉的里程碑
(二)Swin-Transformer:借鉴卷积改进 ViT
一、Transformer
(一)ViT:Transformer 引入计算机视觉的里程碑
ViT(Vision Transformer)是将 Transformer 架构引入计算机视觉领域的开创性工作。它将图像分割成固定大小的 patches,然后将这些 patches 展平并嵌入到一个序列中,类似于 NLP 中的词嵌入。ViT 使用多头自注意力机制来捕捉图像不同部位之间的全局依赖关系,从而实现图像分类等任务。
ViT 的主要步骤如下:
-
图像分割:将图像分割成多个非重叠的 patches。
-
嵌入:将每个 patch 映射到一个固定维度的向量。
-
位置编码:将位置信息添加到嵌入向量中。
-
Transformer 编码器:使用多层 Transformer 编码器对序列进行处理。
-
分类头:使用一个可学习的分类 token 来预测图像类别。
ViT 的出现为计算机视觉领域带来了新的思路,展示了 Transformer 架构在处理图像数据方面的潜力。
(二)Swin-Transformer:借鉴卷积改进 ViT
Swin-Transformer 是对 ViT 的重要改进,它引入了局部窗口自注意力机制,类似于卷积神经网络(CNN)中的局部感受野概念。Swin-Transformer 将图像分割成多个不重叠的窗口,并在每个窗口内进行自注意力计算,从而减少了计算量并提高了模型的效率。
Swin-Transformer 的主要特点包括:
-
局部窗口自注意力:在每个窗口内计算自注意力,减少计算复杂度。
-
窗口间信息交互:通过合并和分割窗口来实现不同层次的信息交互。
-
层次化特征提取:采用层次化的结构,逐步提取图像的多尺度特征。
Swin-Transformer 在保持 Transformer 的全局建模能力的同时,显著提高了计算效率,使其在多种视觉任务中表现出色。
(三)VAN:使用卷积模仿 ViT
VAN(Vision Attention Network)是一种结合了卷积和 Transformer 的新型网络架构。它通过使用卷积操作来提取局部特征,并利用 Transformer 的自注意力机制来捕捉全局信息。VAN 的设计旨在利用卷积的高效性和 Transformer 的强大建模能力。
VAN 的主要特点包括:
-
卷积特征提取:使用卷积层提取图像的局部特征。
-
自注意力增强:在卷积特征的基础上,添加自注意力模块以捕捉全局信息。
-
轻量化设计:通过优化网络结构,减少计算量和参数数量。
VAN 在图像分类、目标检测等任务中展现了良好的性能,证明了卷积和 Transformer 结合的有效性。
(四)ConvNeXt:CNN 的文艺复兴
ConvNeXt 是对 CNN 架构的一次重新设计,旨在借鉴 Transformer 的成功经验并结合 CNN 的优势。ConvNeXt 通过引入一系列现代化的设计元素,如深度可分离卷积、残差连接、注意力机制等,提升了 CNN 的性能和效率。
ConvNeXt 的主要特点包括:
-
深度可分离卷积:减少计算量和参数数量,提高模型效率。
-
残差连接:促进信息流动,缓解梯度消失问题。
-
注意力机制:增强模型的全局建模能力。
ConvNeXt 在多个视觉基准测试中取得了与 Transformer 架构相媲美的性能,证明了 CNN 在现代视觉任务中的竞争力。
二、CNN
CNN(卷积神经网络)是计算机视觉领域的传统架构,它通过卷积层、池化层和全连接层来提取图像的特征。CNN 的主要特点包括:
-
卷积层:使用卷积核提取图像的局部特征。
-
池化层:对特征进行下采样,减少计算量和参数数量。
-
全连接层:对特征进行分类或回归。
尽管 Transformer 架构在近年来取得了显著进展,但 CNN 仍然是许多视觉任务的首选架构,尤其是在实时性要求较高的场景中。
三、MLP
(一)MLP-Mixer
MLP-Mixer 是一种基于多层感知机(MLP)的新型架构,用于图像识别任务。它通过使用两个不同类型的 MLP 层(通道混合和空间混合)来捕获图像的全局信息。
MLP-Mixer 的主要特点包括:
-
通道混合:在通道维度上进行信息混合。
-
空间混合:在空间维度上进行信息混合。
MLP-Mixer 展示了在没有卷积或自注意力机制的情况下,仅使用 MLP 也可以实现有效的图像识别。
(二)MetaFormer
MetaFormer 是一种通用的 Transformer 架构,旨在为不同的视觉任务提供统一的解决方案。它通过引入元学习的思想,使模型能够自适应地调整其结构和参数。
MetaFormer 的主要特点包括:
-
元学习:通过元学习算法优化模型的初始化和参数更新。
-
灵活架构:支持多种视觉任务,如图像分类、目标检测、语义分割等。
MetaFormer 为 Transformer 架构在计算机视觉领域的应用提供了新的思路和方法。
在图片识别领域,Transformer 架构通过 ViT、Swin-Transformer 等模型引入了新的思路和方法。同时,CNN 架构也在不断演进,ConvNeXt 等新型 CNN 架构展现了强大的竞争力。此外,MLP 架构在 MLP-Mixer 和 MetaFormer 等模型中也取得了显著进展。这些架构的不断创新和融合,为图片识别技术的发展提供了强大的动力。未来,随着研究的深入,我们可以期待更多高效、强大的图片识别模型的出现。