MedNeRF: Medical Neural Radiance Fields for Reconstructing 3D-aware CT-Projections from a Single X-r

最新推荐文章于 2024-07-17 13:25:58 发布

槿予

最新推荐文章于 2024-07-17 13:25:58 发布

阅读量868

点赞数 12

文章标签： 3d 深度学习

本文链接：https://blog.csdn.net/qq_50267787/article/details/139219578

版权

摘要

计算机断层扫描（CT）是一种有效的医学成像模式，在临床医学领域广泛用于诊断各种病症。多探头 CT 成像技术的进步使其具备了更多的功能，包括生成薄片多平面横截面人体成像和三维重建。然而，这需要病人暴露在相当大剂量的电离辐射下。过量的电离辐射会对人体造成确定性的有害影响。本文提出了一种深度学习模型，可学习从几张甚至单张视图 X 光片重建 CT 投影。该模型基于一种基于神经辐射场的新型架构，通过从二维图像中分离表面和内部解剖结构的形状和体积深度，学习 CT 扫描的连续表示。我们的模型是在胸部和膝盖数据集上训练出来的，我们展示了定性和定量的高保真渲染，并将我们的方法与其他最新的基于辐射场的方法进行了比较。我们的代码和数据集链接见 abrilcf/mednerf (github.com)临床相关性--我们的模型能够从几张或单视角 X 光片中推断出解剖三维结构，显示了在成像过程中减少电离辐射暴露的未来潜力。

1. 引言

三维医学成像通常需要将 CT 或磁共振成像（MRI）的多个二维切片连接起来，其工作流程的一部分包括指定病人、成像源和探测器的位置值。要保证 CT 3D 呈现的质量和准确性，需要数百个切片厚度较薄的 X 射线投影[1]。此外，与普通 X 射线相比，这一过程会使患者受到更多的电离辐射，而且根据检查类型的不同，患者需要保持不动长达 1 小时以上[2]。连续的三维图像可以让放射科医生获得内部解剖结构中每一点的光学图像。虽然这种表示方法很有用，但由于辐射量增加、结构与角度相关以及耗时长，CT 存在实际挑战[3]。

早期的医学影像重建方法在给定的输入数据上使用分析和迭代方法 [4]、[5]。然而，这些方法经常会遇到数学模型与成像系统物理特性不匹配的问题。相反，最近的几种方法利用深度学习[6]用于稀疏视图重建[7]、[8]、[9]、二维图像三维 CT 重建[10]和异常检测[11]。这些深度学习方法解决了数学模型与成像系统之间的不匹配问题，并通过微调最先进的架构改进了重建效果。然而，这些方法需要大量的训练数据，而在医疗领域，获取专家注释既费钱又费时，可能难以满足要求。

神经辐射场（NeRF）[12] 模型是最近从图像中估算三维体积表示法的一种新方法。这种表示法将场景的辐射场和密度编码为神经网络的参数。神经网络学会通过沿投射光线的点样本进行体积渲染来合成新的视图。然而，这些表征通常是在受控环境下捕获的[13]。首先，场景是由一组固定摄像机在短时间内拍摄的。其次，场景中的所有内容都是静态的，真实图像往往需要遮挡。这些限制使得 NeRF 无法直接应用于医疗领域，因为医疗领域的成像系统与传统相机有很大不同，而且图像的拍摄时间较长，病人无法保持静态。此外，医学影像中解剖结构的重叠也妨碍了边缘的定义，而这一问题并不能通过遮罩轻易解决。这些方面解释了为什么 NeRF 方法特别适用于 "自然图像"。

为了应对这些挑战，我们提出了 MedNeRF 模型，该模型将生成辐射场（GRAF）[14] 应用于医疗领域，以渲染给定几张甚至单视角 X 光片的 CT 投影。我们的方法不仅能合成逼真的图像，还能捕捉数据流形，并提供解剖结构的衰减和容积深度随视角变化的连续表示，而无需三维监督。这是通过一种新的判别器架构来实现的，该架构在处理 CT 扫描时能为 GRAF 提供更强、更全面的信号。

与我们的目标最接近的是[8]和[9]，它们都是在低剂量幻象物体 CT 正弦图中训练基于坐标的网络，并将其应用于稀疏视图断层摄影重建问题。与[8]不同的是，我们通过随机输入不同医疗实例的数据来学习单个模型中的多个表征，而不是针对每个图像集合分别进行优化。为了测试 [9] 的重建能力，他们将其集成到重建方法中，并使用至少 60 个视图。与他们的方法不同的是，我们不依赖额外的重建算法，而且在训练过程中只需要多个视图。

我们渲染了胸部和膝部两个数字重建射线照片（DRR）数据集的 CT 投影。我们定性和定量地展示了高保真渲染，并将我们的方法与其他最新的基于辐射场的方法进行了比较。此外，我们还渲染了给定单视角 X 光片的医疗实例的 CT 投影，并展示了我们的模型在覆盖表面和内部结构方面的有效性。

2. 方法

A.数据集准备

为了训练我们的模型，我们生成DRRs，而不是收集成对的x射线和相应的CT重建，这将使患者暴露在更多的辐射中。此外，DRR生成删除了患者数据，并能够控制捕获范围和分辨率。我们通过使用[15]，bb0的20次CT胸部扫描和[17]，[18]的5次CT膝关节扫描来生成DRRs。这些扫描覆盖了不同对比类型的不同患者，显示了正常和异常的解剖结构。假设辐射源和成像面板绕垂直轴旋转，每5度产生一个分辨率为128×128的DRR，每个物体产生72个DRR。在训练期间，我们对每个患者使用整套72个drr(360度垂直旋转范围内所有视图的五分之一)，并让模型渲染其余部分。我们的工作不涉及人类受试者或动物的实验程序，因此不需要机构审查委员会的批准。

GRAF[14]是一个从NeRF构建的模型，并在生成对抗网络(GAN)中定义它。它由预测图像patch P pred的生成器Gθ和将预测的patch与从真实图像中提取的patch P real进行比较的鉴别器Dφ组成。与原始的NeRF[12]和[19]等类似方法相比，GRAF已经显示出从2D图像中分离物体三维形状和视点的有效能力。因此，我们的目标是将GRAF的方法转化为我们的任务，在第II-C节中，我们描述了我们的新鉴别器架构，它允许我们从drr中分离出3D属性。

我们考虑实验设置来获得辐射衰减响应，而不是在自然图像中使用的颜色。为了获得姿态为ξ的任意投影K在像素位置处的衰减响应，首先，我们考虑模式ν = (u;s)在K × K图像贴片P内采样R个x射线束。然后，我们沿着从像素位置出发的x射线束r采样N个3D点x i r，并在投影的近面和远面之间排序(图1a)。

图1所示。GRAF生成器的概述。

对象表示在多层感知器(MLP)中编码，该感知器以3D位置x = (x;y;Z)，观察方向d = (θ;φ)，生产作为输出的是密度标量σ和像素值c。为了学习高频特征，将输入映射为二维表示(图1b):

式中p为三维位置或观看方向，令j = 0;:::;M−1。

为了建模解剖结构的形状和外观，设zs ~ ps和za ~ pa分别为从标准高斯分布中采样的潜在代码(图1c)。为了得到密度预测σ，将形状编码q通过密度头σθ转换为体积密度。然后，网络gθ(·)作用于一个形状编码q = (γ(x);zs)，然后与位置编码d和外观编码za连接(图1c):

通过合成操作计算最终像素响应cr(图1c):

其中α I r = 1 - exp (- σ I r δ I r)是采样点I的α合成值，δ I r =k x I +1 r - x I r k2是相邻采样点之间的距离。

通过这种方法，用网络gθ计算沿光束r的每个采样点的密度和像素值。最后，结合所有R光束的结果，发生器Gθ预测图像patch P pred，如图1d所示。

C. MedNeRF

我们研究了如何将GRAF应用于医学领域，并将其应用于DRRs的体积表示。利用大型数据集，GRAF的鉴别器Dφ能够连续提供有用的信号来训练生成器Gθ。然而，在我们的问题中考虑的医疗数据集通常很小，这导致了两个连续的问题:

缺乏对生成器的真实信息:在GRAF(以及一般的GAN)中，特征的唯一来源用于生成器的训练数据是从鉴别器传递过来的间接梯度。我们发现GRAF鉴别器的单卷积反馈不能很好地传达来自drr的精细特征，导致不准确的体积估计。

脆弱的对抗训练:使用有限的训练数据集，生成器或鉴别器可能会陷入病态设置，例如模式崩溃，这将导致生成有限数量的实例，从而导致次优的数据分布估计。虽然一些工作已经应用数据增强技术来利用医疗领域中的更多数据，但一些转换可能会误导生成器学习不常见甚至不存在的增强数据分布[20]。我们发现，天真地应用经典数据增强的效果不如我们采用的框架好。

1)用于高保真综合的自监督学习:

为了允许更丰富的drr特征映射覆盖，从而产生更全面的信号来训练Gθ，我们用自监督方法的最新进展取代了GRAF的判别器架构。我们允许Dφ在一个借口任务上学习有用的全局和局部特征，特别是基于自编码的自监督方法。与[21]不同的是，我们只使用两个解码器来处理尺度上的特征图:f1在322上，f2在82上(图2a)。我们发现这种选择允许更好的性能，并实现正确的体积深度估计。因此，Dφ不仅要区分预测的P pred和Gθ，还要从真实图像patch P real中提取综合特征，使解码器能够与数据分布相似。

为了评估来自Dφ的解码补丁的全局结构，我们使用了学习感知图像补丁相似度(LPIPS)度量[22]。我们计算两个VGG16特征空间之间的加权两两图像距离，其中预训练的权重适合于更好地匹配人类感知判断。因此，额外的鉴别器损失为:

式中φi(·)为预训练VGG16网络的第i层输出，w、h、d分别为特征空间的宽度、高度和深度。设G为对来自Dφ的中间特征映射f的处理，T为对真实图像patch的处理。当加上这种额外的重建损失时，网络学习跨任务传输的表示。

2)通过数据增强改善学习:

我们通过采用优化GAN (DAG)的数据增强框架[20]来改进Gθ和Dφ的学习，其中数据增强变换Tk(图2b)应用了多个鉴别器头fDkg。为了进一步减少内存使用，我们共享除每个磁头对应的最后一层之外的所有Dφ层(图2c)。由于应用了可微和可逆的数据增广变换，Tk具有Jenssen-Shannon (JS)守恒性[20]:

其中ptk d是变换后的训练数据分布，ptk g是变换后的由Gθ捕获的分布。通过使用包含翻转和旋转的总共四种转换，我们鼓励对原始数据分布进行优化，这也带来了最大的性能提升。这些选择使我们的模型不仅受益于JS(pd k pg)，而且受益于JS(p Tk d k p Tk g)，从而提高了Gθ的学习和d φ的泛化。此外，使用权值共享的多重鉴别器提供了Dφ的学习正则化。

将GRAF的物流目标替换为铰链损失，我们将总体损失定义如下:

式中f(u) = max(0;1 + u)。我们用n = 4来优化这个损失，其中k = 0对应于单位变换，λ = 0:2(如[20])。

3)单视图x射线的体绘制:

在训练模型后，我们在给定单视图x射线的医疗实例的完整垂直旋转内重建完整的x射线投影。我们遵循[23]中的松弛重建公式，它使生成器适合于单个图像。然后，我们允许对发生器Gθ的参数以及形状和外观潜在向量zs和za进行稍微微调。在GAN方法[24]中，失真和感知权衡是众所周知的，因此我们通过添加失真均方误差(MSE)损失来修改生成目标，从而激励模糊与准确之间的平衡:

其中NLLL对应负对数似然损失和调谐超参数lr = 0:0005， β1 = 0， β2 = 0:999， λ1 = 0:3， λ2 = 0:1和λ3 = 0:3。一旦模型找到zs和za的最佳组合，我们就复制它们，并通过持续控制角度视点来渲染其余的x射线投影。

3.结果

在这里，我们提供了MedNeRF对我们数据集的评估。我们将模型的结果与基础事实、两条基线进行比较，进行消融研究，并进行定性和定量评估。我们训练所有模型进行100,000次迭代，批大小为8。投影参数(u;V)来均匀地采样一个球体表面上的点，具体来说，轻微的水平仰角为70-85度，umin = 0, umax = 1进行完整的360度垂直旋转。然而，在训练期间，我们只提供五分之一的视图(每个视图为5度72视图)，并让模型渲染其余部分。

A.单视图x射线重建

在给定单视图x射线作为输入的情况下，我们评估了模型对3d感知DRR合成的表示。我们发现，尽管隐式线性网络的容量有限，但我们的模型可以解开不同医疗实例的三维解剖身份和衰减响应，通过II-C.3中描述的重构重构来检索。我们的模型还可以通过对比度变换方便地区分骨骼和组织，因为它可以为更密集的结构(例如骨骼)呈现更亮的像素值(图3)。

图3所示。膝关节渲染从连续的视点旋转显示组织和骨骼。给定CT的单视图x射线，我们可以通过稍微微调预训练模型以及形状和外观潜在代码，在完全垂直旋转内生成完整的CT投影集。

表1总结了我们基于峰值信噪比(PSNR)和结构相似性(SSIM)的结果，它们分别衡量重构信号的质量和人类主观相似性。我们发现我们的生成损失可以在渲染图中实现合理的感知失真曲线，并且与连续视点的解剖结构的位置和体积深度相比，与地面真实相一致。

表1 .基于单视图x射线输入的渲染x射线投影的PSNR和SSIM的定量结果。

B. 2D DRR渲染

我们在2D渲染任务上评估我们的模型，并将其与pixelNeRF[19]和GRAF[14]基线进行比较，其中使用了原始架构。我们的模型可以更准确地估计体积深度GRAF和pixelNeRF(图4)。

对于每个类别，我们找到一个看不见的目标实例，具有相似的视图方向和形状。体积深度估计由明亮的颜色(远)和黑暗的颜色(近)给出。由于缺乏感知损失，GRAF不被激励产生高频纹理。相比之下，我们发现我们的模型呈现出更详细的内部结构与不同的衰减。GRAF产生一致的衰减响应，但似乎无法从背景中区分解剖形状。我们的自监督鉴别器使生成器能够通过为背景渲染较亮的颜色和为形状渲染较暗的颜色来分离形状和背景，而GRAF则为两者渲染明亮或黑暗的颜色。

我们发现pixelNeRF对所有数据集产生模糊的衰减渲染，并且体积图倾向于表现出强烈的颜色偏移(图4)。我们认为，与nerf训练的固体状自然物体相比，这些伪影是由于数据集的透明性质。这种数据特征不仅损害了体积图，而且损害了精细的解剖结构。相比之下，我们的模型能够更好地呈现体积深度和衰减响应。我们还发现pixelNeRF对投影参数的微小变化很敏感，这阻碍了膝盖类别的优化。我们的模型产生一致的3D几何形状，不依赖于显式投影矩阵。

表2比较了基于Frechet Inception Distance (FID)和Kernel Inception Distance (KID)指标的图像质量，其中值越低意味着越好。在我们的数据集上优化pixelNeRF会导致特别差的结果，无法与GRAF基线和我们的模型竞争。相比之下，我们的模型在所有数据集的FID和KID指标上都优于基线。

C.消融研究

我们用三次消融来评估我们的模型(表III):其中包括一个额外的简单解码器(SD);对抗性的物流损失被其铰链版本所取代;，其中采用非经典DAG方法。我们发现，与天真地应用经典数据分析相比，DAG方法带来了最大的性能提升，而使用铰链损失的性能略好于其逻辑版本。然而，在我们的自监督鉴别器中增加一个解码器会导致显著的下降

4.结论

我们提出了一种新的基于神经辐射场的深度学习架构，用于学习CT扫描的连续表示。我们学习了一组二维drr在发生器权值中的衰减响应的医学类别编码。此外，我们发现我们的鉴别器发出的更强、更全面的信号允许生成辐射场来模拟3d感知的ct投影。实验评价表明，与其他神经辐射场方法相比，具有显著的定性和定量重建和改进。

虽然所提出的模型可能不会完全取代CT，但从x射线生成3d感知CT投影的功能在骨创伤、发育不良的骨骼评估和骨科术前计划的临床应用中具有很大的潜力。这可以减少给病人的辐射剂量，具有重大的经济意义，例如降低调查成本。

槿予

关注

12
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
MedNeRF: Medical Neural Radiance Fields for Reconstructing 3D-aware CT-Projections from a Single X-r

我们的模型是在胸部和膝盖数据集上训练出来的，我们展示了定性和定量的高保真渲染，并将我们的方法与其他最新的基于辐射场的方法进行了比较。为了训练我们的模型，我们生成DRRs，而不是收集成对的x射线和相应的CT重建，这将使患者暴露在更多的辐射中。此外，我们还渲染了给定单视角 X 光片的医疗实例的 CT 投影，并展示了我们的模型在覆盖表面和内部结构方面的有效性。因此，我们的目标是将GRAF的方法转化为我们的任务，在第II-C节中，我们描述了我们的新鉴别器架构，它允许我们从drr中分离出3D属性。
复制链接

扫一扫