前言
研一狗,开始发奋图强看论文,写(水)论文的路上。老师之前给布置的项目是根据几何信息进行图像配准,实在是太难了/(ㄒoㄒ)/~~。来参拜一下大佬的论文。
论文地址:TransMorph: Transformer for unsupervised medical image registration - ScienceDirect
一、abstract
在医疗图像配准领域,之前有基于传统的几何方法,近几年深度学习的方式逐渐火热。当然在图像领域大放异彩的conv和transformer都被引入了配准中。conv中有unet++,而transformer中则是TransMorph效果最好(2022年发表在Medical Image Analysis)
在医学图像配准中,与传统方法相比,基于ConvNet的方法可以显著提高配准性能,同时操作速度(训练后)快几个数量级。基于ConvNet的方法在训练阶段用单个全局函数优化取代了传统方法中昂贵的每图像优化。卷积神经网络从训练图像中学习图像配准的常见表示,从而能够在训练后快速对齐看不见的图像对。最初,需要对地面真实变形场(通常使用传统的配准方法生成)进行监督以训练神经网络。近几年,重点已转移到开发不依赖于地面真实变形场的无监督方法,而几乎所有现有的基于深度学习的方法都使用U-Net或U-Net的简单修改版本(例如,调整层数或更改下采样和上采样方案)作为他们的ConvNet设计。
但是,我们知道conv的缺点主要是在卷积的前几层,感受野受到卷积核大小的限制,无法获取全局的信息,尤其对于配准来说,很可能出现原始图像的左边要和目标图像的右边配准。尽管unet系列通过复杂或简单的上采样、下采样,并使用跳跃连接操作(concat)来扩大感受野。但是这样的方法始终在配准领域表现一般。
于是大佬就想到将transformer引入配准了。
TransMorph这篇文章的主要创新点在于一个新型的,将transformer和conv结合的模型,可以用来进行三维图像配准。以及一些优秀的拓扑性质(这部分就不看了,拓扑已经忘得一干二净)。原文如下:在这种方法中,Swin transformer(Liu等人,2021a)被用作编码器来捕获输入运动和固定图像之间的空间对应关系。然后,ConvNet解码器将编码器提供的信息处理成密集位移场。部署了长跳过连接,以维护编码器和解码器级之间的定位信息流。我们还引入了TransMorph的微分变形变化,以确保平滑和拓扑保持变形。此外,我们对TransMorph的参数应用了变分推理,产生了一个贝叶斯模型,该模型根据给定的图像对预测配准不确定性。实验结果的定性和定量评估验证了所提方法的鲁棒性,并证实了transformer在图像配准方面的功效。
很有意思的一点是:作者说:尽管位置嵌入positional embedding是Transformer中常用的元素,但对于我们所提出的混合Transformer ConvNet模型不需要位置嵌入。
二、相关工作
1.传统方法
可变形的图像配准(DIR)是通过优化能量函数在两个图像间建立空间对应关系的:
具体的解释请看文章,还蛮有意思的。
传统的图像配准方法通过迭代最小化每对移动和固定图像的能量函数。
也就是对移动图像先进行仿射对齐,再进行可变形配准。
2.有监督NN
这种方法依赖于很好的GD,计算成本很高,放弃。
3.无监督NN
无监督 DNN 优化了输入图像上的能量函数,类似于传统方法。但是,基于 DNN 的方法从训练集中学习通用配准表示,然后将其应用于一般的图像。
TransMorph:
4.微分图像配准
微分同胚变换是具有可逆导数(即非零雅可比行列式)的平滑且连续的一对一映射,具有特殊的特性,包括拓扑性质保存和变换可逆性。微分同胚变换是具有可逆导数的平滑且连续的一对一映射。可以通过对时间积分实现。这又分为两种方式,时间依赖的速度场,或时间平稳的速度场。
参见原文:
在实践中,神经网络首先生成一个位移场,然后按比例缩放产生初始变形场.随后,将平方技术(即方程(4))通过空间变换函数递归应用于T次,产生最终的微分变形场.尽管微分同胚在理论上保证是可逆的,但插值误差会导致可逆性误差,该误差随插值步骤的数量线性增加
关于这种方法,可以看我的另一篇博客https://blog.csdn.net/qq_49603002/article/details/129846287?spm=1001.2014.3001.5501这篇论文同样运用了对静止速度场积分的方法,从而获得微分同胚的形变场。这种方法应该是通用的,且有稳定解。
5.贝叶斯深度学习
不确定性估计有助于理解机器学习模型不知道的内容。它们表明神经网络可能做出错误预测的可能性。由于大多数深度神经网络无法提供其输出值不确定性的估计,因此它们的预测经常以表面值进行,并被认为是正确的。贝叶斯深度学习估计预测不确定性,为理解深度神经网络中的不确定性提供了一个现实的范式(Gal和Ghahramani,2016)。在基于深度学习的图像配准中,大多数方法都为未知几何变换提供了单一的确定性解决方案。了解认识不确定性有助于确定配准结果是否可信以及在多大程度上可信,以及输入数据是否适合神经网络。
通常,可以使用深度学习模型的认识不确定性对两类配准不确定性进行建模:转换不确定性transformation uncertainty和外观不确定性appearance uncertainty 。转换不确定性测量空间变换的局部模糊性(即变形),而外观不确定性量化配准体素的强度值或配准器官体积的不确定性。转化不确定性估计可用于不确定性加权配准(Simpson等人,2011,Kybic,2009),手术治疗计划,或直接可视化用于定性评估(Yang等人,2017b)。外观不确定性可以转化为放射或放射性药物治疗累积剂量的剂量不确定性(Risholm等人,2011年,Vickress等人,2017年,Chetty和Rosu-Bubulac,2019年,Gear等人,2018年)。 这些配准不确定性估计还可以评估操作风险并导致更明智的临床决策(Luo 等人,2019 年)。Cui 等人 (2021) 和 Yang 等人 (2017b) 在其配准网络设计中加入了 MC dropout层,允许通过对网络中的多个变形场预测进行采样来估计转换不确定性。
拟议的图像配准框架扩展了这些想法。特别是,提出了一个新的配准框架,该框架在网络设计中利用了transformer。我们证明了这个框架可以很容易地适应几种现有的技术,以允许图像配准的微分同胚,并结合贝叶斯深度学习来估计配准的不确定性。
三.主要方法
图像配准的传统范式如图2所示。移动图像和固定图像,分别表示为和首先仿射变换为单个坐标系。生成的仿射对齐运动图像表示为.随后使用变形场将被翘曲为,由 DIR 算法生成。在这里,仿射变换和可变形配准都是使用基于transformer的神经网络执行的。
图像配准的传统范式:
3.1仿射变换网络
这里主要使用轻量化的swin transformer来完成仿射变化,输入两个3D图像,生成12个仿射参数,
3个旋转角度、3 个平移参数、3个缩放参数和 3 个剪切参数
3.2主体网络
编码器将输入(也就是一对移动和固定的图像)分为不重叠的3D块,大小为2*P*P*P,P一般为4.第i个patch为,i=1,2,3,...,N,N=H*W*L/P*P*P(总数N也就是总体积除每个块的体积喽),这里的patch展开后可以认为是一个token。每个token再经过线性投影层变为特征表示。
注意到,由于线性投影在图像patch上运行,并且不会保持每个patch相对于整个图像的位置,因此以前基于Transformer的模型通常会在线性投影中添加位置嵌入pos,以便将位置信息集成到patch中。此类Transformer主要用于图像分类,其中输出通常是描述输入图像被分类为特定类的可能性的向量。因此,如果不使用位置嵌入,Transformer可能会丢失位置信息。但是,对于图像配准等像素级任务,网络通常包括一个解码器,该解码器生成与输入或目标图像具有相同分辨率的密集预测(dense prediction)。通过使用损失函数,将输出与目标图像进行比较,从而输出图像中体素之间的空间对应关系。输出和目标之间的任何空间不匹配都会导致损失,并反向传播到Transformer编码器中。因此,Transformer应固有地捕获token的位置信息。在这项工作中,我们观察到,位置嵌入对于图像配准不是必需的,它只会向网络添加额外的参数,而不会提高性能。
3.3损失函数
文章中有两个相似性度量:
第一个是MSE:
第二个是LNCC:
还有两个正则项:(这里正则项的作用主要是使得变形场更加平滑,为此我们需要鼓励每个位置的位移值和相邻位置的位移值是相似的:
第一个是扩散正则器
u是位移场的空间梯度u.这里空间梯度使用前向差分近似,即
第二个是弯曲能量,用来惩罚剧烈的弯曲变形:
实验部分略...感觉这个方法比之前的方法提的点不是很多0.0。所以说配准好难做。
更新日志
23/3/13 完成第一稿
23/4/5 重读论文,加入了微分图像配准的内容,下一步继续学习这部分内容,涉及时间积分和李代数
zhezhe