TransUnet

最新推荐文章于 2024-05-24 20:51:48 发布

或跃在渊448

最新推荐文章于 2024-05-24 20:51:48 发布

阅读量413

点赞数

分类专栏：医学图像文章标签：深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/A3143214796/article/details/120272258

版权

医学图像专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、概述

CNN的局限性：对于在纹理、形状和大小方面显示出较大患者间差异的目标结构表现不佳。

二、Method

输入： $x\in \R^{H\times W \times C}$
目标：预测大小为 $H\times W$ 的像素级labelmap

2.1 Transformer as Encoder

2.1.1 Image Sequentialization

将输入 $x$ 展开为一系列二维patch， ${x_p^i \in \R^{P^2\dot C}|i=1,...,N}$ ，其中，每个patch的大小为 $P\times P$ ，数量为 $N={HW}/{P^2}$ 。

2.1.2 Patch embedding

使用可训练的线性投影将 $x_p$ 映射到一个 $D$ 维嵌入空间中去，并且为了编码patch的空间信息，在patch embeddibgs中加入位置信息：
$z_0=[x_p^1E;x_p^2E;...;x_p^NE]+E_{pos}\tag{1}$
其中， $\in \R^{(P^2\dot C)\times D}$ ， $E_{pos}\in \R^{N\times D}$ 。
Transformer encoder包含 $L$ 层的多头注意力网络和多层感知器模块，第 $l$ 层的输入如下：
$z^{'}_l=MSA(LN(z_{l-1}))+z_{l-1},\tag 2$ $z_l=MLP(LN(z_{l-1}))+z_{l},\tag 3$

2.2 TransUNet

Navie upsampling baseline：为恢复空间顺序，首先将 $HW/P^2$ 恢复为 $H/W \times W/P$ ，然后使用 $\times 1$ 的卷积将通道数减少为类别的个数，采用双线性插值上采样到 $\times W$ 大小，用来做最终的预测。但会造成细节信息的缺失。

2.2.1 CNN-Transformer Hybrid as Encoder

主要是解决单用Transformer进行encoder后，得到的特征图 $H/P \times W/P$ 小于原始图像的像素 $\times W$ ，缺乏有效的上采样措施。在解码的时候也无法对图像的细节特征进行有效利用。
因此提出了上图所示的CNN与Transformer相混合的编码器。

2.2.2 Cascaded Upsampler

使用级联的上采样块，每个块包含 $2$ 倍的上采样运算符，一个 $\times 3$ 的卷积层和 $R e L U$ 层。并采用U-Net型的跳跃连接来融合编码器相应层的特征图。

三、Experiments

或跃在渊448

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
TransUnet

一、概述CNN的局限性：对于在纹理、形状和大小方面显示出较大患者间差异的目标结构表现不佳。二、TransUnet输入：x∈RH×W×Cx\in \R^{H\times W \times C}x∈RH×W×C目标：预测大小为H×WH\times WH×W的像素级labelmap 2.1 Encoder2.1.1 Image Sequentialization 将输入xxx展开为一系列二维patch，xpi∈RP2C˙∣i=1,...,N{x_p^i \in \R^{P^2\dot C
复制链接

扫一扫

专栏目录