一般而言,我拿到一篇论文之后,会首先分析每个块的输入输出是怎样的,先从整体上对网络结构把握,然后在慢慢的细化。我们首先来梳理一下swin-transformer每个块的输入输出。
| stage | Layer | size |
| — | — | — |
| | input image | 224x224x3 |
| | patch partition | 224/4 x 224/4 x 4x4x3 |
| 1 | linear embedding | 224/4 x 224/4 x 96 |
| 1 | swin transformer | 224/4 x 224/4 x 96 |
| 2 | patch merging | 224/8 x 224/8 x 192 |
| 2 | swin transformer | 224/8 x 224/8 x 192 |
| 3 | patch merging | 224/16 x 224/16 x 192 |
| 3 | swin transformer | 224/16 x 224/16 x 192 |
| 4 | patch merging | 224/32 x 224/32 x 384 |
| 4 | swin transformer | 224/32 x 224/32 x 384 |
从结构图中可以看到,swin-transformer网络结构主要包括以下层:
-
1.Patch Partition:将输入图像划分为若干个patch
-
2.Linear Embedding:将输入图像映射要任意维度(论文中记为C,即C=96)
-
3.Patch Merging:降低分辨率,扩大感受野,获得多层次的特征信息,类似于CNN中的pool层
-
4.swin transformer:特征提取及特征表征
2.3 swin-transformer结构解析
到这里我们已经大致了解swin-transformer网络