TransUnet: Transformers 和 Unet 的强强联合
论文题目:TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation.
论文链接:链接: https://arxiv.org/abs/2102.04306.
Introduction
-
Unet是目前语义分割常用的网络结构,但是由于卷积固有的局部性特征,基于卷积的方法不能有效建模长程关系。
-
Transformers是为sequence to sequence的预测设计的方法,不仅对于全文建模有很大的优势,而且在大规模的预训练中,它还表现出对下游任务的优越的可转移性。
-
文章提出Unet和Transformers结合的TransUNet。
Unet
参考:U-Net: Convolutional Networks for Biomedical Image Segmentation
总体结构:
- 图像分割的常用的网络结构
- 由两部分组成:
encoder和decoder - 特点:
U型结构和skip-connection
UNet的encoder下采样4次,一共下采样16倍,对称地,其decoder也相应上采样4次,将encoder得到的高级语义特征图恢复到原图片的分辨率。
Transformer
- 由两部分组成:
encoder和decoder - 特点:
encoder中主要包括一个多头注
意力层和一个前馈神经网络层
decoder相比encoder多了一个注
意力层
总体结构:
Method
图片切片成为2D序列方法参考:AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
结构图:
Decoder
TransUNet总体结构
Experiments
– 对比实验
评价标准:Dice系数和豪斯多夫距离
文章还探究了skip-connction数目、输入的图片分辨率、切片大小等对于TransUNet的影响。