TransMorph(初读论文)

前言:研一,医学图像配准方向。刚接触配准,还有很多不懂。

本文主要的贡献

使用了IXI公开数据集,代码、预训练模型和我们预处理的IXI数据集可以在https://bit.ly/37eJS6N上公开获得。

1.Transformer-based model:本文介绍了利用变压器进行图像配准的开创性工作。提出了一种新的基于transformer的神经网络TransMorph,用于仿射和变形图像配准。

2. Architecture analysis: 本文的实验表明,位置嵌入是Transformer中常用的元素,而本文提出的Transformer- convnet混合模型不需要位置嵌入。其次,证明了基于transformer的模型比卷积神经网络具有更大的有效感受野。此外,我们证明了TransMorph促进了更平坦的注册损失景观。(损失景观可以用来描述损失函数在参数空间中的形状和特征。如果损失函数的形状平缓而光滑,那么它的损失景观也会相对平坦。反之,如果损失函数具有许多尖锐的峰值或者有很多局部最小值,那么它的损失景观就会很崎岖。)

3.Diffeomorphic registration:证明了TransMorph可以很容易地集成到两个现有框架中,作为配准主干来提供微分对称配准。

4.Uncertainty quantification:本文还提供了TransMorph的贝叶斯不确定性变体,该变体产生transformer不确定性和完美校准的外观不确定性估计。

一.摘要

         卷积神经网络的性能可能会受到缺乏明确考虑图像中的远程空间关系的限制,transformers具有更大的接受野,可以更精确地理解移动和固定图像之间的空间对应关系。本文提出了TransMorph,一种用于医学图像配准的混合Transformer-ConvNet模型。本文还介绍了TransMorph的微分变体和贝叶斯变体:微分变体保证了保持拓扑的变形,而贝叶斯变体产生了校准良好的配准不确定性估计。

Introduction 

        在医学图像配准中,与传统方法相比,基于convnet的配准方法可以显著提高配准性能,并且(经过训练)操作数量级更快。基于卷积神经网络的方法在训练阶段用单个全局函数优化取代了传统方法中昂贵的逐图优化。

        由于卷积操作的固有局域性(即有限的有效接受场),卷积网络架构通常在建模图像中存在的明确的远程空间关系(即彼此相距很远的两个体素之间的关系)方面存在局限性。U-Net(或V-Net 被提出通过在ConvNet中引入下采样和上采样操作来克服这一限制,这在理论上扩大了ConvNet的接受域,从而鼓励网络考虑图像中点之间的远程关系。然而,仍然存在几个问题:第一,前几层的接收域仍然受到卷积核大小的限制,并且图像的全局信息只能在网络的较深层查看;其次,研究表明,随着卷积层的加深,远处体素的影响会迅速衰减。因此,在实践中,U-Net的有效接受野比其理论接受野要小得多,它只是医学图像典型尺寸的一部分。这限制了U-Net感知语义信息和对点之间的远程关系进行建模的能力。然而,人们认为理解语义场景信息的能力在应对大变形方面非常重要。其他领域的许多工作(例如,图像分割)已经解决了U-Net的这一限。为了在整个网络中更好地实现多尺度上下文信息的流动,Zhou等人(Zhou et al . 2019)提出了一个嵌套的U-Net(即U-Net++),其中使用了复杂的上下采样以及多个跳过连接。

        Transformer可以作为图像配准的有力候选,因为它可以更好地理解运动和固定图像之间的空间对应关系。配准就是建立这种对应关系的过程,直观地通过比较运动的不同部分到固定图像。卷积神经网络具有狭窄的视场:它在局部进行卷积,其视场的增长与卷积神经网络的深度成正比;因此,浅层的接收区域相对较小,限制了卷积神经网络将两幅图像之间较远的部分联系起来的能力。例如,如果运动图像的左侧部分与固定图像的右侧部分相匹配,如果不能同时看到这两个部分(即当其中一个部分落在ConvNet的视场之外时),ConvNet将无法在这两个部分之间建立适当的空间对应关系。然而,Transformer能够处理这种情况,并迅速专注于需要变形的部分,因为它有很大的接受场和自我注意机制。        

        该方法采用Swin-transformer作为编码器,捕获输入运动图像和固定图像之间的空间对应关系。然后,ConvNet解码器将Transformer编码器提供的信息处理成密集的位移场。采用长跳过连接来维持编码器和解码器阶段之间的定位信息流。我们还引入了TransMorph的微分同构变化,以确保平滑和保持拓扑的变形。此外,我们对TransMorph的参数进行了变分推理,得到了一个基于给定图像对预测配准不确定性的贝叶斯模型。实验结果的定性和定量评价验证了该方法的鲁棒性,并证实了变压器在图像配准中的有效性。

二.Related Work

2.1. Image Registration

可变形图像配准通过优化能量函数建立两幅图像之间的空间对应关系:

其中Im和If分别表示运动图像和固定图像,φ表示扭曲运动图像的变形场(即Im◦φ), R(φ)表示变形场的平滑度,λ是正则化超参数,决定图像相似性和变形场规则性之间的权衡。最优形变或扭曲,φ是通过最小化这个能量函数得到的:

在能量函数中,Esim测量变形的运动图像Im◦φ与固定图像If之间的对齐程度。Esim通常使用MSE,NCC,SSIM,MI等。正则化项R(φ)对变形场施加空间平滑性。在大多数应用程序中,一个常见的假设是在移动和固定图像中都存在类似的结构。因此,需要一个连续且可逆的变形场(即,微分同构)来保持拓扑结构,而正则化R(φ)意味着加强或鼓励这一点。各向同性扩散(相当于高斯平滑)(Balakrishnan等人2019年)、各向异性扩散(Pace等人2013年)、总变化(Vishnevskiy等人2016年)和弯曲能量(Johnson和Christensen 2002年)是R(φ)的常用选项。

三.Methods

图像配准的传统范式如下图所示。移动图像和固定图像,分别表示为\hat{I_{m}}I_{f}首先仿射变换为单个坐标系。生成的仿射对齐运动图像表示为I_{m}.随后使用变形场\phiI_{m}被翘曲为I_{f}\phi由 DIR 算法生成。在这里,仿射变换和可变形配准都是使用基于transformer的神经网络执行的。

3.1仿射变换

仿射网络检查一对移动和固定图像,并产生一组变换参数,使移动图像与固定图像对齐。本文提出的基于变压器的仿射网络架构是一种改进的Swin变压器(Liu et al . 2021a),它以两个三维体(即If和m)为输入,生成12个仿射参数:三个旋转角度、三个平移参数、三个缩放参数和三个剪切参数。该体系结构的细节和可视化如图3所示。

3.2主干网络

编码器将输入(也就是一对移动和固定的图像)分为不重叠的3D块,大小为2*P*P*P,P一般为4.第i个patch为x_{p}^{i},i=1,2,3,...,N,N=H*W*L/P*P*P(总数N也就是总体积除每个块的体积),这里的patch展开后可以认为是一个token。每个token再经过线性投影层变为特征表示。

注意到,由于线性投影在图像patch上运行,并且不会保持每个patch相对于整个图像的位置,因此以前基于Transformer的模型通常会在线性投影中添加位置嵌入pos,以便将位置信息集成到patch中。此类Transformer主要用于图像分类,其中输出通常是描述输入图像被分类为特定类的可能性的向量。因此,如果不使用位置嵌入,Transformer可能会丢失位置信息。但是,对于图像配准等像素级任务,网络通常包括一个解码器,该解码器生成与输入或目标图像具有相同分辨率的密集预测(dense prediction)。通过使用损失函数,将输出与目标图像进行比较,从而输出图像中体素之间的空间对应关系。输出和目标之间的任何空间不匹配都会导致损失,并反向传播到Transformer编码器中。因此,Transformer应固有地捕获token的位置信息。在这项工作中,我们观察到,位置嵌入对于图像配准不是必需的,它只会向网络添加额外的参数,而不会提高性能。

3.3损失函数

损失函数由两部分组成,一部分计算变形的运动图像与固定图像之间的相似度,另一部分对变形场进行正则化,使其平滑:

相似性度量

第一个是均方误差,即If和Im之间体素值的平方差的平均值:

使用的另一个相似度度量是If和Im之间的局部归一化相互关系:

形变场正则化

单独优化相似性度量将鼓励Im◦φ在视觉上尽可能接近If。然而,得到的变形场φ可能不光滑或不真实。为了保证变形场的平滑性,在损失函数中加入正则化器R(φ)。R(φ)鼓励一个位置的位移值与其相邻位置的位移值相似。这里,我们用两个正则化器做实验。第一个是扩散正则器Balakrishnan et al 2019:

 第二个是弯曲能量,用来惩罚剧烈的弯曲变形:


————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/qq_49603002/article/details/129339818

————————————————

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/qq_49603002/article/details/129339818

  • 27
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值