VisionTransformer改进（4）：集成SK模块

点我头像干啥

于 2025-04-25 07:00:00 发布

阅读量494

点赞数 19

分类专栏： ViT、svit图像分类网络改进文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/2401_82355416/article/details/147482099

版权

ViT、svit图像分类网络改进专栏收录该内容

14 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

1.概述

在这篇博客中，我们将详细分析一个将Selective Kernel (SK)模块集成到Vision Transformer (ViT)模型中的PyTorch实现代码。

这个实现展示了如何通过添加注意力机制来增强标准ViT模型的性能。

代码结构

整个代码由三个主要部分组成：

SKModule类 - 实现选择性核注意力机制

get_model函数 - 构建集成了SK模块的ViT模型

主程序 - 演示模型的使用

SKModule详解

SKModule是实现选择性核注意力的核心部分：

class SKModule(nn.Module):
    def __init__(self, features, M=2, r=16):
        super().__init__()
        self.M = M  # 分支数量
        self.features = features  # 输入特征维度
        self

了解本专栏

超级会员免费看