TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation
原文链接 CVPR2021
结合Visual Transformer和UNet,将CNN-Transformer混合架构作为编码器,级联上采样器,以实现精确定位。
在CNN-Transformer混合模型中,CNN作为特征提取器生成feature map,然后将patch embedding应用于feature map提取1×1的patch。每个上采样块由一个2×上采样算子,一个3×3卷积层和一个ReLu层组成。