论文笔记：Large Deformation Diffeomorphic Image Registration with Laplacian Pyramid Networks

最新推荐文章于 2024-09-02 08:22:52 发布

月光哒哒哒

最新推荐文章于 2024-09-02 08:22:52 发布

阅读量1.7k

点赞数 2

分类专栏：医学图像处理文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/Fas666666/article/details/121586061

版权

医学图像处理专栏收录该内容

1 篇文章

订阅专栏

本文是论文《Large Deformation Diffeomorphic Image Registration with Laplacian Pyramid Networks》的阅读笔记，初入配准，多有不懂之处，请多多包涵。

摘要

在本文中，提出了一种深拉普拉斯金字塔图像配准网络，它可以在不变形映射空间内以从粗到精的方式解决图像配准优化问题。对两个MR脑扫描数据集的大量定量和定性评估表明，我们的方法在保持理想的变形特性和良好的配准速度的同时，显著优于现有方法。

Contributions

提出了一种新的用于大变形图像配准的LapIRN算法，该算法利用了多分辨率策略的优点，同时在从粗到精的优化方案中保持了特征映射的非线性。
针对金字塔网络提出了一种新的金字塔相似性度量，用于捕获输入扫描之间的大偏差和小偏差，这有助于避免优化过程中出现局部极小值。
提出我们方法的有效微分形态设置，并表明我们的方法保证了所需的微分形态特性，包括计算变换的可逆性和拓扑保持性。

网络结构

网络结构如上图所示。使用三个相同的基于CNN的配准网络来模拟多分辨率模式下的配准。特征编码器、一组R残差块和特征解码器的特征映射分别用蓝色、绿色和红色着色。虚线路径仅包括在训练阶段。在本文中，所有配准都是在3D中完成的。

具体地说，我们首先通过使用三线性插值对输入图像进行下采样来创建输入图像金字塔，以获得 F1、F2、F3（以及M1、M2、M3)对于第一个金字塔层，CRN（CNN-based registration network ）从具有最粗分辨率（F1 和 M1）的级联输入扫描中捕获非线性错位，并输出 3 通道密集矢量场 $v_1$ 和形变场 $\varphi_1$ 。对于第二层金字塔，先将第一层金字塔的输出形变场 $\varphi_1$ 上采样2倍得到 $\hat{\varphi_1}$ 并使用 $\hat{\varphi_1}$ 扭曲 $M_2$ 得到扭曲后的moving image： $M_2(\hat{\varphi_1})$ .然后把第一层输出的速度场 $v_1$ 上采样，并将上采样结果表示为 $\hat{v_1}$ 。将 $\hat{v_1}$ 与输入扫描F2、 $M_2(\hat{\varphi_1})$ 连接起来形成第二层CRN的五通道输入。最后将第二层的输出速度场与第一层上采样的速度场 $\hat{v_1}$ 相加得到第二层的最终速度场 $v_2$ ,对速度场 $v_2$ 积分得到第二层金字塔的最终形变场 $\varphi_2$ 。第三层过程与第二层类似。此外还通过跳跃连接将较低级的CRN的特征嵌入添加到下一级别，这样增加了接受野和网络的非线性从而在更精细的级别学习复杂的非线性对应。

CRN（CNN-based registration network）结构

CRN由3部分组构成：特征编码器、R残差块、特征解码器。特征编码器由两个步长为1的333 3D卷积核和一个步长为2的333 3D卷积核组成。每个CRN包括5个残差块，每个残差块包含两个具有预激活结构的3D卷积层和跳跃连接。另外增加了特征编码器到特征解码器的跳跃连接，防止学习形变场时低层特征的消失。

由粗到精的训练方案

论文作者发现端到端的训练方案并不理想，因为它很难在不同分辨率之间平衡多个损失的权重。因此本文使用了一种由粗到精的训练方案，该方法具有热启动性。具体说，首先从最粗糙的级别训练CRN，然后从下一级逐步添加CRN，以了解更精细分辨率下的图像配准问题。为避免不稳定的热启动，每当向训练中添加新的CRN时，将所有预训练CRN的学习参数冻结为常数M步。本文中将M设置为2000，重复该训练步骤，直到完成最高级的训练。

相似性金字塔

在最高分辨率下使用基于强度的相似性度量解决图像配准问题通常会产生局部最小解，利用完全对齐的图像将在所有分辨率之间产生高相似度值的事实，本文提出了相似度金字塔框架来解决上述问题。尽管所提出的相似性金字塔框架适用于多种相似性测量，但为了简单起见，使用局部归一化互相关（NCC）来
描述。相似性金字塔公式为： $S^K(F,M) = \sum_{i\in[1..K]}-\frac{1}{2^{(K-i)}}NCC_{\omega}(F_i,M_i)..............(1)$
$S^K(.,.)$ 表示K层的相似度金字塔, $NCC_{\omega}$ 表示窗口大小为 $\omega^3$ 的局部归一化互相关， $F_i,M_i)$ 表示金字塔中的图像（ $F_1$ 是分辨率最低的图像）。对分辨率较低的相似度值赋予较低的权重以防止较低级别的相似度占据主导地位。本文中 $\omega$ 设置为1+2 $i$ 。相似性金字塔以多分辨率的方式捕获相似性。由于相似性度量值在较粗糙分辨率下更平滑且对噪声不敏感，因此从较低级别集成相似性度量有助于避免在高分辨率优化问题中出现局部极小值。
$L_P(F,M(\phi),v) = S^P(F,M(\phi)) + \frac{\lambda}{2^{L-p}}{||\nabla v||_2^2}$ $p\in[1..L]$ 表示当前金字塔级别，第二项是速度场 $v$ 上的光滑正则化， $\lambda$ 是正则化系数。

微分同胚变形

最近基于深度学习的图像配准方法常使用位移场 $\mu$ 参数化变形模型，使得稠密变形场 $\phi(x) = x + \mu(x)$ ，其中 $x$ 表示恒等变换。尽管这种参数化既简单又直观，但无法保证预测解得理想属性，包括拓扑保持和可逆性。因此本文采用Log-Euclidean框架下的静止速度场参数化变形模型，并在微分同胚映射的空间内优化模型。具体说，微分同胚变形场 $\phi$ 定义为 $\frac{d\phi_t}{dt}=v(\phi^t)$ ，受 $\phi^{(0)}=Id$ 的约束。我们使用时间步长T=7的缩放和平方方法，在单位时间内积分（平滑）静止速度场，以获得时间1的变形场 $\phi^{(1)}$ ，使得 $\phi^{(1)}$ 近似于 $exp^v$ ，它是李群的成员。

实验结果

在这里插入图片描述
上图展示了在两个数据集上的实验结果。DSC表示皮质下分割图的dice系数（越高越好）， $|J_{\phi}|\leq0$ 表示变形场中折叠体素的平均百分比，std( $|J_{\phi}|$ )表示变形场的平滑度（越低越好），TC表示解剖结构的拓扑变化（越接近1越好），Time表示配准每对MR图的平均运行时间（单位秒）。
在这里插入图片描述上图说明了所有方法中具有较大初始未对准的 MR 切片示例。定性结果表明 LapIRN 能够进行大变形，而 VM 和 DIF-VM 的结果被认为是次优的。

上图描绘了 OASIS 数据集中每个解剖结构的平均 DSC。与具有微分形态特性的方法相比，我们提出的方法 LapIRN 在 14 种解剖结构中始终实现更好的配准性能。

结论

在本文中，我们提出了一种新颖的深度拉普拉斯金字塔网络，用于与相似金字塔进行可变形图像配准，它模仿传统的多分辨率策略来捕获输入扫描之间的大错位。为了保证变形场的理想微分同胚性质，我们用对数欧几里得框架下的稳定速度场来制定我们的微分同胚方法。实验结果表明，我们的方法不仅以非常有效的运行时间（0.3 秒）实现了最先进的配准精度，而且我们的方法还保证了变形场的理想微分性质。我们的方法的制定可以轻松地以最小的努力转移到各种应用中，并且已经证明了对时间敏感的医学研究的巨大潜力。