【YOLOv8改进】骨干网络： SwinTransformer (基于位移窗口的层次化视觉变换器）

本文链接：https://blog.csdn.net/m0_63430863/article/details/139843417

YOLO目标检测创新改进与实战案例专栏

专栏目录： YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例

专栏链接: YOLO目标检测创新改进与实战案例

摘要

本文提出了一种新型视觉Transformer，称为Swin Transformer，它能够作为计算机视觉的通用骨干网络。将Transformer从语言领域适应到视觉领域时面临的挑战源于两个领域之间的差异，例如视觉实体的尺度变化大以及图像中像素的高分辨率相比文本中的单词。为了解决这些差异，我们提出了一种分层Transformer，其表示是通过移位窗口计算得出的。移位窗口方案通过将自注意力计算限制在非重叠的局部窗口内，同时也允许跨窗口连接，从而带来更高的效率。这种分层架构具有在不同尺度上建模的灵活性，并且其计算复杂度与图像大小呈线性关系。Swin Transformer的这些特性使其与广泛的视觉任务兼容，包括图像分类（在ImageNet-1K上的top-1准确率为87.3）和密集预测任务，如目标检测（在COCO test-dev上的框准确率为58.7，掩码准确率为51.1）以及语义分割（在ADE20K val上的mIoU为53.5）。其性能大幅超越了之前的最佳水平，在COCO上框准确率提高了+2.7，在掩码准确率提高了+2.6，在ADE20K上mIoU提高了+3.2，展示了基于Transformer模型作为视觉骨干网络的潜力。分层设计和移位窗口方法也证明对所有MLP架构都有益。

创新点

引入类似于CNN的层次化构建方式构建Transformer模型；
引入locality思想，对无重合的window区域进行单独的self-attention计算。

yoloV8 引入 SwinTransformer


# --------------------------------------------------------
# Swin Transformer
# Copyright (c) 2021 Microsoft
# Licensed under The MIT License [see LICENSE for details]
# Written by Ze Liu
# --------------------------------------------------------

import torch
import torch.nn as nn
import torch.utils.checkpoint as checkpoint
from timm.models.layers import DropPath, to_2tuple, trunc_normal_

try:
    import os, sys

    kernel_path = os.path.abspath(os.path.join('..'))
    sys.path.append(kernel_path)
    from kernels.window_process.window_process import WindowProcess, WindowProcessReverse

except:
    WindowProcess = None
    WindowProcessReverse = None
    print("[Warning] Fused window process have not been installed. Please refer to get_started.md for installation.")


class Mlp(nn.Module):
    def __init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.GELU, drop=0.):
        super().__init__()
        out_features = out_features or in_features
        hidden_features = hidden_features or in_features
        self.fc1 = nn.Linear(in_features, hidden_features)
        self.act = act_layer()
        self.fc2 = nn.Linear(hidden_features, out_features)
        self.drop = nn.Dropout(drop)

    def forward(self, x):
        x = self.fc1(x)
        x = self.act(x)
        x