NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction(中文标题:稀疏视图CBCT重建的神经衰减场)

摘要

本文提出了一种新的、快速的、不需要外部训练数据的稀疏视图CBCT(圆锥束计算机断层扫描)重建自监督方案。具体来说,所需的衰减系数被表示为三维空间坐标的连续函数,由全连接深度神经网络参数化。我们离散地合成投影,并通过最小化真实投影和合成投影之间的误差来训练网络。采用基于学习的哈希编码编码器来帮助网络捕获高频细节。该编码器利用了人体器官的平滑性和稀疏性,在性能和效率方面优于常用的频域编码器。在人体器官和幻影数据集上进行了实验。所提出的方法达到了最先进的精度,并花费了相当短的计算时间。代码可从https://github.com/Ruyi-Zha/naf_cbct获得。

1介绍

锥形束计算机断层扫描(CBCT)是一种新兴的医学成像技术,可以无创地检查受试者的内部结构。CBCT扫描仪发射锥形x射线束,并以等角间隔捕获二维投影。与传统的扇束CT (FBCT)相比,CBCT具有空间分辨率高、扫描速度快的优点。近年来,低剂量CT蓬勃发展,它在扫描过程中提供的辐射剂量明显较低。降低剂量的方法有两种:降低源强度或投影视图[8]。本文的重点是后者,即稀疏视图CBCT重建。

稀疏视图CBCT重建旨在从数十个投影中检索体积衰减系数场。这是一项具有挑战性的任务,体现在两个方面。首先,不充分的视图会导致显著的工件。相比之下,传统的CBCT可以获得数百张图像。稀疏视图CBCT的输入量减少了10倍。其次,由于输入维数的增加,CBCT重建的空间复杂度和计算复杂度远高于FBCT重建。CBCT依靠二维投影来建立三维模型,而FBCT通过叠加从1D投影恢复的2D切片来简化过程(但牺牲了时间和剂量)。

现有的CBCT方法可分为三类:分析方法、迭代方法和基于学习的方法。解析法通过求解Radon变换及其逆来估计衰减系数。典型的例子是FDK算法[7]。它在理想情况下产生良好的结果,但在处理稀疏视图等病态问题时效果不佳。第二种方法是迭代法,它将重构表述为最小化过程。这些方法利用与正则化模块相结合的优化框架。虽然迭代方法在病态问题中表现良好[2,20],但它们需要大量的计算时间和内存。最近,随着人工智能的兴起,基于学习的方法变得流行起来。他们使用深度神经网络来1)预测和外推投影[3,22,24,28],2)回归相似数据的衰减系数[11,27],以及3)使优化过程可微[1,6,10]。大多数方法[3,11,22,27]都需要大量的数据集来进行网络训练。此外,他们依靠神经网络来记住CT的样子。因此,很难将一个应用程序的训练模型应用于另一个应用程序。虽然存在自监督方法[1,28],但它们在考虑网络容量和内存消耗的FBCT设置下运行。当应用于CBCT场景时,它们的性能和效率会下降。

除了上述指定的CT重建工作外,还努力处理其他不适定问题,例如计算机视觉领域的3D重建。与CT重建类似,3D重建使用RGB图像来估计3D形状,这些形状通常表示为离散的点云或网格。最近的研究提出[13,16]内隐神经表征(INR)作为这些离散表征的替代方法。INR将有界场景参数化为一个神经网络,该网络将空间坐标映射到占用率和颜色等度量。借助位置编码器[14,21],INR能够学习高频细节。

本文提出了一种基于神经衰减场(Neural Attenuation Fields, NAF)的快速自监督稀疏视图CBCT重建方法。在这里,我们使用自我监督来强调NAF不需要外部CT扫描,而是需要感兴趣物体的x射线投影。受三维重建工作的启发[13,16],我们将衰减系数场参数化为INR,用自监督网络管道模拟x射线衰减过程。具体来说,我们训练了一个多层感知器(MLP),其输入是一个编码的空间坐标(x;y;Z),其输出为该位置的衰减系数µ。我们没有使用常见的频域编码,而是采用哈希编码[14],这是一种基于学习的位置编码器,可以帮助网络快速学习高频细节。投影是通过预测采样点沿射线轨迹的衰减系数并相应地衰减入射光束来合成的。通过最小化真实投影和合成投影之间的误差,采用梯度下降法对网络进行优化。我们证明,在人体器官和幻影数据集上,NAF在数量和质量上都优于现有的解决方案。虽然大多数INR方法需要几个小时的培训,但我们的方法可以在10-40分钟内重建出详细的CT模型,与迭代方法相当。

综上所述,本工作的主要贡献在于:

2方法

2.1管道

NAF的管道如图1所示。在CBCT扫描过程中,x射线源围绕物体旋转并发射锥形x射线束。2D面板以相等的角度间隔检测x射线投影。然后NAF使用扫描仪的几何形状来离散地模拟衰减过程。它通过比较真实投影和合成投影来学习CT形状。模型优化后,通过查询相应体素生成最终的CT图像。

图1:NAF管道。灰色块:CBCT扫描仪从不同角度捕获x射线投影。蓝色方块:NAF模拟投影。橙色块:NAF通过比较真实投影和合成投影进行优化。绿色块:NAF通过查询相应体素生成CT模型。

NAF包括四个模块:射线采样、位置编码、衰减系数预测和投影合成。首先,对点进行均匀采样沿着基于扫描仪几何形状的x射线路径。然后位置编码器网络对它们的空间坐标进行编码以提取有价值的特征。然后,MLP网络吸收编码信息并预测衰减系数。NAF的最后一步是根据入射x射线路径上预测的衰减系数对入射x射线进行衰减合成投影。

2.2神经衰减场

射线采样投影图像的每个像素值都是x射线穿过立方体空间并被内部介质衰减的结果。我们在射线与立方体相交的地方采样N个点。采用分层抽样方法[13],将一条射线分成N个间隔均匀的箱子,在每个箱子上均匀取样一个点。设置N大于期望的CT大小确保至少一个样本分配到x射线遍历的每个网格单元。然后将采样点的坐标发送到位置编码模块。

位置编码一个简单的MLP理论上可以近似任何函数[9]。然而,最近的研究[18,21]表明,由于频谱偏差,神经网络更倾向于学习低频细节。为此,引入位置编码器将三维空间坐标映射到高维空间。

一个常见的选择是由Mildenhall等人提出的频率编码器。它将空间坐标p2r3分解为L组不同频率的正弦分量。虽然频率编码器减轻了训练网络的困难,但它被认为是相当麻烦的。在医学成像实践中[26,28],编码器输出的大小设置为256或更大。接下来的网络必须更宽更深,以应对膨胀的输入。因此,训练数百万个网络参数需要花费数小时,这对于快速CT重建来说是不可接受的。

频域编码是一种密集编码器,因为它利用了整个频谱。然而,密集编码对于CBCT重建来说是冗余的,主要有两个原因。首先,人体通常由几个同质介质组成,如肌肉和骨骼。衰减系数在一种介质内保持近似均匀,但在不同介质间有所不同。除非点靠近边缘,否则不需要高频特征。第二,自然物体喜欢光滑。许多器官形状简单,如梭形(肌肉)或圆柱形(骨骼)。它们的光滑表面可以很容易地通过低维特征来学习。

为了利用扫描对象的上述特征,我们使用哈希编码器[14],这是一种基于学习的稀疏编码解决方案。哈希编码器MH的方程为:

哈希编码器通过L个多分辨率体素网格来描述有界空间。为每个体素网格分配一个大小为T的可训练特征查找表Θ。在每个分辨率级别,我们1)检测查询点p的相邻角c(图1(b)中不同颜色的立方体),2)以哈希函数方式H[23]查找其对应的特征H, 3)使用线性插值生成特征向量i。哈希编码器的输出是所有分辨率级别的特征向量的串联。哈希函数及其符号的更多细节可以在[14]中找到。

与频率编码器相比,哈希编码器产生更小的输出(在我们的设置中为32),具有竞争性的特征质量,原因有两个。一方面,哈希函数的多对一性质符合人体器官的稀疏性。另一方面,可训练编码器可以学习关注相关细节并选择合适的频谱[14]。由于哈希编码器,后续网络更加紧凑。

衰减系数预测我们用一个简单的MLP Φ表示有界场,它以编码的空间坐标作为输入,输出该位置的衰减系数µ。如图1(c)所示,该网络由4个全连接层组成。前三层有32个通道宽,中间有ReLU激活功能,而最后一层有一个神经元,后面跟着一个s型激活。包括一个跳过连接,将网络输入连接到第二层的激活。相比之下,Zang等人使用6层256通道MLP从频率编码器学习特征。我们的网络要小10倍。

衰减综合根据比尔定律,x射线穿越物质的强度通过其路径上衰减系数的指数积分来降低。对衰减过程进行数值合成:

其中I0为初始强度,δi = kpi+1 - pik为相邻点之间的距离。

2.3模型优化与输出

NAF通过最小化真实投影和合成投影之间的L2损失来更新。损失函数L定义为:

其中B为射线批,Ir和is分别为射线r的实投影和合成投影。我们在训练过程中同时更新哈希编码器Θ和衰减系数网络Φ

最后的输出是一个离散的三维矩阵。我们建立一个具有所需尺寸的体素网格,并将体素坐标传递给训练好的MLP来预测相应的衰减系数。这样就恢复了CT模型。

3实验

3.1实验设置

我们在包含人体器官和幻影数据的五个数据集上进行实验。详情见表1。

人体器官:我们使用人体器官ct的公开数据集来评估我们的方法[4,12],包括胸部、颌骨、足部和腹部。胸部数据来自LIDC-IDRI数据集[4],其余数据来自开放科学可视化数据集[12]。由于这些数据集只提供体积CT扫描,我们通过层析成像工具箱TIGRE[5]生成投影。在TIGRE[5]中,我们在180°范围内捕获了50个带有3%噪声的投影。我们用这些投影训练我们的模型,并用原始体积CT数据评估其性能。

幻影:我们通过使用GE c臂医疗系统扫描一个硅主动脉幻影来收集幻影数据集。该系统捕获582 500×500透视投影,定位主要角度为-103至93,定位次要角度为0。一个512×512×510 CT图像也生成与内置算法为基础的事实。我们只用50个投影来做实验。

Baselines我们将我们的方法与四种基线技术进行比较。首先选择FDK[7]作为分析方法的代表。第二种方法SART[2]是一种鲁棒迭代重建算法。ASD-POCS[20]是另一种带全变分正则器的迭代方法。我们实现了IntraTomo[28]的CBCT变体,命名为IntraTomo3D,作为频率编码深度学习方法的一个例子。

实现细节我们提出的方法是在PyTorch[17]中实现的。我们使用Adam优化器,其学习率从1 × 103开始,逐步降低到1 × 104。每次迭代的批处理大小为2048条射线。每条射线的采样量取决于CT数据的大小。例如,我们在128×128×128胸部CT的每条射线上采样192个点。我们对哈希编码器使用与[14]相同的超参数设置。关于超参数的更多细节可以在补充材料中找到。所有实验均在单个RTX 3090 GPU上进行。我们根据峰值信噪比(PNSR)和结构相似性(SSIM)[25]对五种方法进行了定量评价。PSNR (dB)统计评估伪信号抑制性能,而SSIM衡量两个信号之间的感知差异。PNSR/SSIM值越高代表重构越准确,反之亦然。

效果我们的方法在表2所列的人体器官和幻影数据集中都产生了定量上最好的结果。PSNR和SSIM值均显著高于其他方法。例如,我们的方法在腹部数据集中的PSNR值比第二好的方法SART高3.07 dB。

我们还在图2中提供了不同方法的可视化结果。FDK恢复具有显著工件的低质量模型,因为分析方法需要大量的投影。迭代法SART抑制噪声以牺牲某些细节为代价。ASDPOCS的重建结果是严重模糊的,因为全变差正则化鼓励去除高频细节,包括不必要的噪声和预期的微小结构。IntraTomo3D产生干净的结果。然而,媒体之间的边缘稍微模糊,这表明频率编码器未能教会网络关注边缘。在哈希编码的帮助下,所提出的NAF结果具有最多的细节,最清晰的边缘和最少的伪影。从图3可以看出,NAF在重建CT体积的所有切片上都优于其他方法。

图4显示了迭代方法和基于学习的方法在不同视图数下的性能。很明显,性能随着输入视图的增加而提高。在大多数情况下,我们的方法比其他方法取得更好的效果。

时间我们记录迭代和基于学习的方法的运行时间,如图5所示。所有方法都使用CUDA[15]来加速计算过程。总的来说,这些方法在具有小投影的数据集(胸部、下巴和脚)上花费的时间更少,而在大数据集(腹部和主动脉)上花费的时间越来越多。IntraTomo3D需要一个多小时来训练网络。得益于紧凑的网络设计,NAF的运行时间与迭代方法相似,比频率编码深度学习方法IntraTomo3D快3倍。

4结论

本文提出了一种基于自监督学习的快速稀疏视图CBCT重建方法NAF。我们的方法训练了一个全连接的深度神经网络,该网络消耗三维空间坐标并输出该位置的衰减系数。NAF根据预测的衰减系数,通过衰减入射x射线来合成投影。通过最小化投影误差来更新网络。我们表明频率编码在层析重建任务中计算效率不高。作为替代方案,采用基于学习的编码器哈希编码进行提取有价值的特性。在人体器官和幻影数据集上的实验结果表明,该方法取得了明显优于其他基线的结果,并且计算时间相当短。

  • 19
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值