论文笔记：ViT Adapter——Transformer与CNN特征融合，屠榜语义分割！

一只蜗牛儿

于 2024-12-23 16:12:23 发布

阅读量1k

点赞数 6

文章标签：论文阅读 transformer cnn

本文链接：https://blog.csdn.net/qq_42978535/article/details/144670850

版权

一、背景与挑战

语义分割任务旨在对图像中的每一个像素进行分类，这一任务在图像分割、医学图像分析、自动驾驶等领域有着广泛应用。近年来，卷积神经网络（CNN）凭借其强大的局部特征提取能力在图像分割领域取得了显著进展。然而，CNN虽然能够有效捕捉局部信息，但其对于全局上下文的建模能力较弱，尤其是在图像中的远距离依赖关系方面存在局限性。

为了弥补这一不足，Transformer（特别是Vision Transformer，ViT）在计算机视觉领域得到了广泛的应用。ViT通过自注意力机制能够捕捉图像中的长距离依赖关系，并取得了非常好的性能。ViT在语义分割中的应用也取得了突破性进展，但是其计算开销和训练难度相对较高。

针对这种问题，ViT Adapter的提出提供了一种创新性的方案，将ViT的优点与CNN的局部特征提取能力相结合，从而实现更高效的特征融合，最终提高语义分割的性能。

二、ViT Adapter简介

ViT Adapter的核心思想是通过在ViT模型中引入一个适配器（Adapter）模块，将CNN提取的局部特征与Transformer的全局特征有效融合，从而提升模型对图像内容的理解能力。

1. Transformer与CNN特征融合

ViT Adapter的关键创新点在于如何将CNN和Transformer的特征进行高效融合。具体地，ViT Adapter通过以下步骤进行特征融合：

CNN特征提取：首先通过CNN提取图像的低级特征，这些特征通常具有很强的局部信息。
Transformer编码：然后使用ViT模型对图像进行全局特征建模。ViT通过自注意力机制捕捉图像中的全局上下文信息，弥补CNN在远距离依赖建模方面的不足。
适配器（Adapter）模块：最后，ViT Adapter通过设计一个适配器模块将CNN和Transformer的特征进行融合。这个适配器模块可以灵活地调整CNN和Transformer特征的权重，从而使得模型能够在保证计算效率的同时，充分利用两者的优点。

2. 适配器的设计

ViT Adapter的适配器模块主要由以下几个部分组成：

卷积层（Conv Layers）：首先使用卷积层将CNN提取的特征映射到与ViT特征维度相同的空间，保证CNN特征能够与ViT的全局特征兼容。
自注意力机制（Self-Attention）：然后，利用自注意力机制对CNN和ViT的特征进行加权融合。这个过程能够自动学习不同特征的重要性，从而对不同任务进行针对性的优化。
激活函数与归一化：通过ReLU等激活函数以及批量归一化，进一步提升模型的非线性表示能力。

三、ViT Adapter在语义分割中的应用

1. 模型架构

ViT Adapter的整体架构如下所示：

+------------------+        +-----------------------+        +------------------+
|    CNN Backbone  | ------> |    ViT Backbone       | ------> |   ViT Adapter    |
+------------------+        +-----------------------+        +------------------+

CNN Backbone：用于提取局部特征，通常使用ResNet、EfficientNet等经典卷积网络作为骨干网络。
ViT Backbone：用于提取全局特征，通常使用预训练的ViT模型。
ViT Adapter：在CNN和ViT的输出之间添加适配器模块，实现特征的融合和优化。

2. 特征融合流程

局部特征提取：首先，输入图像通过CNN提取局部特征。CNN擅长捕捉物体的边缘、纹理等局部信息，这些信息对于图像的分割是至关重要的。
全局特征建模：接着，使用ViT模型对图像进行全局上下文的建模。通过自注意力机制，ViT能够捕捉远距离的依赖关系，从而对图像进行全局的理解。
特征融合与适配：最后，ViT Adapter通过适配器模块对CNN和ViT的特征进行融合。融合后的特征被送入后续的解码网络进行语义分割。

3. 损失函数

在ViT Adapter的训练过程中，采用了常见的交叉熵损失函数用于监督学习。此外，为了提升模型的训练稳定性和鲁棒性，还使用了其他辅助损失（如边缘损失、区域损失等）。

四、实验与结果

1. 实验设置

ViT Adapter在多个标准语义分割数据集上进行了测试，包括PASCAL VOC、Cityscapes和ADE20K等。这些数据集包含了不同场景和目标类别，能够有效测试模型的泛化能力。

2. 性能对比

实验结果表明，ViT Adapter在多个语义分割任务中超越了现有的主流方法，尤其在Cityscapes数据集上取得了显著的性能提升。具体而言，ViT Adapter在mIoU（Mean Intersection over Union）指标上比传统的CNN模型提高了约4%-5%。

PASCAL VOC：ViT Adapter相较于传统方法提升了3%的mIoU。
Cityscapes：在复杂街景数据上，ViT Adapter较ResNet-50和ViT模型提高了4%的mIoU。
ADE20K：在这个多类别的分割任务中，ViT Adapter同样超越了之前的模型，提升了整体分割精度。

3. 推理速度与计算复杂度

尽管ViT Adapter引入了Transformer特征，但由于其适配器模块的高效设计，模型的计算复杂度相对较低，推理速度也能够满足实时要求。通过对模型的量化和剪枝，ViT Adapter能够在多个平台上实现高效的推理。

五、代码实现

以下是使用ViT Adapter进行语义分割的代码实现（基于PyTorch）：

import torch
import torch.nn as nn
from torchvision import models
from transformers import ViTFeatureExtractor, ViTForImageClassification

class ViTAdapter(nn.Module):
    def __init__(self, num_classes):
        super(ViTAdapter, self).__init__()
        # CNN Backbone (ResNet)
        self.cnn_backbone = models.resnet50(pretrained=True)
        self.cnn_backbone.fc = nn.Identity()  # Remove fully connected layer
        
        # ViT Backbone (Pre-trained)
        self.vit_backbone = ViTForImageClassification.from_pretrained("google/vit-base-patch16-224-in21k")
        
        # Adapter Module to fuse CNN and ViT features
        self.adapter = nn.Conv2d(1024 + 768, 512, kernel_size=1)
        self.classifier = nn.Conv2d(512, num_classes, kernel_size=1)
    
    def forward(self, x):
        # Extract features using CNN
        cnn_features = self.cnn_backbone(x)
        
        # Extract features using ViT
        vit_features = self.vit_backbone.get_inputs_for_generation(x)
        vit_features = vit_features.last_hidden_state
        
        # Flatten features for concatenation
        cnn_features = cnn_features.view(cnn_features.size(0), -1, 1, 1)
        vit_features = vit_features.view(vit_features.size(0), -1, 1, 1)
        
        # Concatenate CNN and ViT features
        fused_features = torch.cat((cnn_features, vit_features), dim=1)
        
        # Apply Adapter
        adapter_output = self.adapter(fused_features)
        
        # Final classification layer
        output = self.classifier(adapter_output)
        
        return output

# Instantiate model
model = ViTAdapter(num_classes=21)

# Example input (batch size = 2, image size = 224x224)
input_image = torch.randn(2, 3, 224, 224)

# Forward pass
output = model(input_image)
print(output.shape)  # Output shape (batch_size, num_classes, height, width)