swin-transformer整体架构
前言
这篇博客会大致介绍swin-transformer的整体架构,在不考虑transformer里的细节的前提下,如何从一个宏观的角度理解swin-transformer的整体架构,以及transformer网络架构为什么能代替传统的卷积网络。swin-transformer的官方代码链接: 官方链接
一、整体介绍
Swin-transformer在目标检测中主要作为网络骨架的backbone部分,官方给出的mask_rcnn_swin_tiny网络中Swin-transformer作为模型backbone只代替了传统mask_rcnn中的Resnet101模块,网络中neck与head模块均与传统mask_rcnn一致。
Swin-transformer的核心思想就是将特征图分割为无数固定大小(默认7×7)的窗口(patch), 在每一个窗口内部做自注意(self-attention),接着移动所有窗口的位置,再做一次自注意,实现全局参数(global parameter)的共享,以此代替传统的卷积操作。
下图为网络的整体结构:
图片链接: