【YOLO改进】换遍MMDET主干网络之SwinTransformer-Tiny（基于MMYOLO）

最新推荐文章于 2024-07-22 08:56:40 发布

五山一胖

最新推荐文章于 2024-07-22 08:56:40 发布

阅读量832

点赞数 17

分类专栏： YOLO改进文章标签： YOLO

本文链接：https://blog.csdn.net/vlone_pp/article/details/138498785

版权

YOLO改进专栏收录该内容

38 篇文章 6 订阅

订阅专栏

SwinTransformer-Tiny

SwinTransformer-Tiny是Swin Transformer模型的一个轻量级版本。Swin Transformer是微软亚洲研究院在2021年提出的一种新型的视觉Transformer，它通过引入移位窗口（Shifted Windows）的概念，实现了层次化的特征表示和线性的计算复杂度，使其在各种视觉任务中都取得了出色的性能。

SwinTransformer-Tiny作为轻量级版本，继承了Swin Transformer的核心思想，但在网络深度和宽度上进行了缩减，以适应更轻量级的计算需求。具体来说，SwinTransformer-Tiny采用了更少的网络层数和更小的特征通道数，以减小模型的参数量和计算量。

作为YOLO主干网络的可行性分析

性能优势：SwinTransformer-Tiny作为Swin Transformer的轻量级版本，继承了其层次化的特征表示和线性的计算复杂度的优点。这使得SwinTransformer-Tiny在保持一定性能的同时，具有更小的模型大小和更快的推理速度。对于实时目标检测任务来说，这是非常重要的。
兼容性：SwinTransformer-Tiny作为一种视觉Transformer模型，与YOLO这种基于卷积神经网络的目标检测算法在结构上有一定的差异。但是，通过合理的设计和调整，可以将SwinTransformer-Tiny作为YOLO的主干网络来使用。具体来说，可以将SwinTransformer-Tiny的输出特征图与YOLO的后续检测头进行连接，形成完整的目标检测模型。
挑战与改进：尽管SwinTransformer-Tiny在作为YOLO主干网络时具有一定的可行性，但也存在一些挑战和改进空间。首先，由于SwinTransformer-Tiny是基于Transformer的模型，其计算方式与基于卷积神经网络的YOLO存在差异，可能需要更多的计算资源和内存。其次，如何更好地将SwinTransformer-Tiny与YOLO的检测头进行融合，以充分发挥两者的优势，也是一个需要研究的问题。为了改进这些方面，可以尝试采用一些优化技术，如剪枝、量化等，来减小模型的参数量和计算量；同时，也可以尝试设计更加高效的融合策略，以提高模型的性能和速度。

替换SwinTransformer-Tiny(基于MMYOLO)

OpenMMLab 2.0 体系中 MMYOLO、MMDetection、MMClassification、MMSelfsup 中的模型注册表都继承自 MMEngine 中的根注册表，允许这些 OpenMMLab 开源库直接使用彼此已经实现的模块。因此用户可以在 MMYOLO 中使用来自 MMDetection、MMClassification、MMSelfsup 的主干网络，而无需重新实现。

假设想将'SwinTransformer-Tiny'作为 'yolov5' 的主干网络，则配置文件如下：

_base_ = './yolov5_s-v61_syncbn_8xb16-300e_coco.py'

deepen_factor = _base_.deepen_factor
widen_factor = 1.0
channels = [192, 384, 768]
checkpoint_file = 'https://github.com/SwinTransformer/storage/releases/download/v1.0.0/swin_tiny_patch4_window7_224.pth'  # noqa

model = dict(
    backbone=dict(
        _delete_=True, # 将 _base_ 中关于 backbone 的字段删除
        type='mmdet.SwinTransformer', # 使用 mmdet 中的 SwinTransformer
        embed_dims=96,
        depths=[2, 2, 6, 2],
        num_heads=[3, 6, 12, 24],
        window_size=7,
        mlp_ratio=4,
        qkv_bias=True,
        qk_scale=None,
        drop_rate=0.,
        attn_drop_rate=0.,
        drop_path_rate=0.2,
        patch_norm=True,
        out_indices=(1, 2, 3),
        with_cp=False,
        convert_weights=True,
        init_cfg=dict(type='Pretrained', checkpoint=checkpoint_file)),
    neck=dict(
        type='YOLOv5PAFPN',
        deepen_factor=deepen_factor,
        widen_factor=widen_factor,
        in_channels=channels, # 注意：SwinTransformer-Tiny 输出的3个通道是 [192, 384, 768]，和原先的 yolov5-s neck 不匹配，需要更改
        out_channels=channels),
    bbox_head=dict(
        type='YOLOv5Head',
        head_module=dict(
            type='YOLOv5HeadModule',
            in_channels=channels, # head 部分输入通道也要做相应更改
            widen_factor=widen_factor))
)

五山一胖

关注

17
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【YOLO改进】换遍MMDET主干网络之SwinTransformer-Tiny（基于MMYOLO）

SwinTransformer-Tiny是Swin Transformer模型的一个轻量级版本。Swin Transformer是微软亚洲研究院在2021年提出的一种新型的视觉Transformer，它通过引入移位窗口（Shifted Windows）的概念，实现了层次化的特征表示和线性的计算复杂度，使其在各种视觉任务中都取得了出色的性能。SwinTransformer-Tiny作为轻量级版本，继承了Swin Transformer的核心思想，但在网络深度和宽度上进行了缩减，以适应更轻量级的计算需求。
复制链接

扫一扫