PMTrans:Pyramid Medical Transformer

最近Transformer风头很劲,自己也在关注其在Medical Image上的应用。

论文概要

这一篇Pyramid Medical Transformer(PMTrans)提出的是一个整合了多尺度注意力和金字塔结构卷积神经网络特征提取的方法。文章总结了该方法的三大显著特点:

  1. 模型采用了金字塔结构,包含四个分支:3个Transformer(多尺度)分支和一个CNN分支;
  2. 在短距离(short range)transformer中采用了局部门控轴向注意力(local gated axial attention),在中距离和长距离分支采用全局门控轴向注意力(global gated axial attention);
  3. 提出了一种合成和标签指导机制(fusion and guidance scheme),用以3个不同尺度transformers和CNN分支输出的多尺度特征图。

结构概览

在这里插入图片描述

方法

Gated axial attention

Axial Attention计算的是近似的自注意力(approximate self-attention)。假设输入图像或特征图为 X X X,则 X X X自注意力 Y Y Y为:
Q = W q X , K = W k X , V = W b X , Q=W_qX, K=W_kX, V= W_bX, Q=WqXK=WkXV=WbX
Y = softmax ( Q K T d k ) V , Y= \text{softmax}(\frac{QK^T}{\sqrt{d_k}})V, Y=softmax(dk QKT)V,
Q , K 和 V Q,K和V Q,KV分别是query,key和value矩阵, d k d_k dk是keys和queires的维度。引入 d k d_k dk作为分母,是为了抵御高维keys和queires点积造成的梯度过小的问题

文中提到的axial attention是为了解决self-attention计算成本过高而进行的一种近似。它仅将self-attention应用于高度和宽度方向。
在这里插入图片描述假设输入特征图 X ∈ R H × W × C i n X\in\mathbb{R}^{H\times W\times C_{in}} XRH×W×Cin,沿宽度轴向的self-attention机制可通过以下公式计算:
y i j = ∑ w = 1 W softmax ( q i j T k i w + q i j T r i w q + k i w T r i w k ) ( v i w + r i w v ) y_{ij}=\sum_{w=1}^W \text{softmax}(q_{ij}^Tk_{iw}+q_{ij}^Tr_{iw}^q+k_{iw}^Tr_{iw}^k)(v_{iw}+r_{iw}^v) yij=w=1Wsoftmax(qijTkiw+qijTriwq+kiwTriwk)(viw+riwv)
其中像素在 i i i j j j是宽度和高度轴的位置; r i w q r_{iw}^q riwq, r i w k r_{iw}^k riwkhe r i w v r_{iw}^v riwv是queries, keys, 和values的相对位置编码。

Gated axial attention其实就是对相对位置编码增加权重。如果模型无法从小的医学数据集中学习到准确的位置编码门控将降低这些编码的影响。
y i j = ∑ w = 1 W softmax ( q i j T k i w + G Q q i j T r i w q + G K k i w T r i w k ) ( G V 1 v i w + G V 2 r i w v ) y_{ij}=\sum_{w=1}^W \text{softmax}(q_{ij}^Tk_{iw}+G_Qq_{ij}^Tr_{iw}^q+G_Kk_{iw}^Tr_{iw}^k)(G_{V1}v_{iw}+G_{V2}r_{iw}^v) yij=w=1Wsoftmax(qijTkiw+GQqijTriwq+GKkiwTriwk)(GV1viw+GV2riwv)
三个transformer有不同的receptive field,但都使用相同的门控轴向注意力机制,使得多尺度信息能够被高效地捕捉,也避免了将图像分割成块面临的问题。

Fusion and deep supervision

除了3个transformer,网络中还有一个CNN分支。通过attention U-net中提出的金字塔融合机制将不同维度的CNN特征图逐步与transformer的特征进行融合。此外,还通过增加auxiliary classifier
的方式增加deep supervision。

实验结果

数据集

Gland segmentation(GLAS)
MoNuSeg dataset

SOTA比较

Quantitative comparison
在这里插入图片描述Qualitative comparison
在这里插入图片描述

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Pyramid Vision Transformer (PVT)是一种用于密集预测的通用backbone,它是一种基于Transformer的设计。PVT的整体架构包括了Transformer编码器和其他细节。PVT的设计使得它可以应用于图像分类、目标检测和实例分割等任务。 PVT的整体架构包括了Transformer编码器和其他细节。Transformer编码器是PVT的核心组件,它通过自注意力机制和全连接层来建模输入图像的关系。PVT还采用了金字塔结构,通过在不同尺度上应用Transformer来捕捉图像中的多尺度信息。这种金字塔结构可以提高PVT在密集预测任务中的性能。 PVT还提供了相应的代码实现,包括了图像分类、目标检测和实例分割的代码。这些代码可以帮助研究人员和开发者更好地理解和应用PVT模型。 论文地址:PVT-V1版本论文 源码地址:PVT-v1-torch源码<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [PVT论文精读:Pyramid Vision Transformer: A Versatile Backbone for Dense Predictionwithout ...](https://blog.csdn.net/qq_52053775/article/details/127700540)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [Pyramid Vision Transformer (PVT) 代码,用于密集预测的通用backbone](https://download.csdn.net/download/weixin_42715977/87625056)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions论文以及...](https://blog.csdn.net/m0_45971439/article/details/120495124)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值