【YOLO改进】换遍MMDET主干网络之Pyramid Vision Transformerv2（PVTv2）（基于MMYOLO）

最新推荐文章于 2024-08-08 08:10:04 发布

五山一胖

最新推荐文章于 2024-08-08 08:10:04 发布

阅读量967

点赞数 18

分类专栏： YOLO改进文章标签： YOLO

本文链接：https://blog.csdn.net/Vlone_pp/article/details/138506901

版权

YOLO改进专栏收录该内容

38 篇文章 7 订阅

订阅专栏

Pyramid Vision Transformer v2（PVTv2）

Pyramid Vision Transformer v2（PVTv2）是在PVTv1的基础上进行改进的一种深度学习模型，它同样结合了Transformer架构和金字塔结构，旨在提供更强大的特征表示和更好的性能。

PVTv2的主要改进包括：

降低计算复杂度：通过引入线性复杂度注意层（Linear Complexity Attention Layer），PVTv2将PVTv1的计算复杂度从二次降低到线性，使得模型在处理高分辨率输入时更加高效。
重叠补丁嵌入：PVTv2采用了重叠补丁嵌入（Overlapping Patch Embedding）来替代PVTv1中的非重叠补丁嵌入。这种方法可以更好地保留图像的局部连续性，提高模型的性能。
卷积前馈网络：在PVTv2中，卷积前馈网络（Convolutional Feed-Forward Network）被用来替代PVTv1中的全连接前馈网络。这种方法可以引入卷积的局部性和层次性，进一步提高模型的性能。

通过这些改进，PVTv2在多个基本视觉任务（如分类、检测和分割）上实现了显著的性能提升，并且在参数量和计算量方面也具有更好的优化。

PVTv2作为YOLO主干网络的可行性分析

性能优势：PVTv2作为PVTv1的改进版本，具有更强的特征表达能力和更高的性能。将其作为YOLO的主干网络，可以使得YOLO能够更有效地提取图像中的特征信息，从而提高目标检测的精度和效率。特别是在处理多尺度目标时，PVTv2的金字塔结构和线性复杂度注意层能够提供更丰富的特征信息，进一步提高模型的性能。
兼容性：尽管PVTv2主要基于Transformer架构，但其金字塔结构的设计使其仍然可以与YOLO的检测头进行有效地融合。通过合理的网络结构和参数设置，可以将PVTv2作为YOLO的主干网络来使用，并形成完整的目标检测模型。
优化与改进：在实际应用中，可以根据具体任务需求对PVTv2进行进一步的优化和改进。例如，可以通过调整网络结构、深度、宽度等参数来平衡模型的性能和速度；也可以采用一些先进的优化技术（如剪枝、量化等）来减小模型的参数量和计算量，进一步提高模型的实时性和部署能力。

替换Pyramid Vision Transformerv2（PVTv2）(基于MMYOLO)

OpenMMLab 2.0 体系中 MMYOLO、MMDetection、MMClassification、MMSelfsup 中的模型注册表都继承自 MMEngine 中的根注册表，允许这些 OpenMMLab 开源库直接使用彼此已经实现的模块。因此用户可以在 MMYOLO 中使用来自 MMDetection、MMClassification、MMSelfsup 的主干网络，而无需重新实现。

假设想将'Pyramid Vision Transformerv2（PVTv2）'作为 'yolov5' 的主干网络，则配置文件如下：

_base_ = './yolov5_s-v61_syncbn_8xb16-300e_coco.py'

deepen_factor = _base_.deepen_factor
widen_factor = 1.0
channels = [64, 160, 256]
checkpoint_file = 'https://github.com/whai362/PVT/releases/download/v2/pvt_v2_b0.pth'  #

model = dict(
    backbone=dict(
        _delete_=True, # 将 _base_ 中关于 backbone 的字段删除
        type='mmdet.PyramidVisionTransformerV2', # 使用 mmdet 中的 PyramidVisionTransformerV2
        embed_dims=32,
        num_layers=[2, 2, 2, 2],
        out_indices =(1, 2, 3), #设置PyramidVisionTransformerv2输出的stage，这里设置为1,2,3，默认为(0,1,2,3)
        init_cfg=dict(type='Pretrained', checkpoint=checkpoint_file)),
    neck=dict(
        type='YOLOv5PAFPN',
        deepen_factor=deepen_factor,
        widen_factor=widen_factor,
        in_channels=channels, # 注意：PyramidVisionTransformer 输出的3个通道是 [64, 160, 256]，和原先的 yolov5-s neck 不匹配，需要更改
        out_channels=channels),
    bbox_head=dict(
        type='YOLOv5Head',
        head_module=dict(
            type='YOLOv5HeadModule',
            in_channels=channels, # head 部分输入通道也要做相应更改
            widen_factor=widen_factor))
)