ColonNeRF: Neural Radiance Fields for High-Fidelity Long-Sequence Colonoscopy Reconstruction

摘要

结肠镜重建是诊断结直肠癌的关键。然而,精确的长序列结肠镜重建面临三个主要挑战:(1)结肠的弯曲形状导致结肠各节段之间的不相似性;(2)简单折叠几何结构与复杂折叠几何结构共存;(3)摄像机轨迹约束下的稀疏视点。为了应对这些挑战,我们引入了一种新的基于神经辐射场(NeRF)的重建框架,名为ColonNeRF,它利用神经渲染进行长序列结肠镜检查的新视图合成。具体来说,为了以分段的方式重建整个冒号,我们的ColonNeRF引入了区域划分和积分模块,有效地减少了形状的不相似性,并确保了每个部分的几何一致性。为了在统一的框架中学习简单和复杂的几何形状,我们的ColonNeRF采用了一个多层次的融合模块,从容易到困难逐步建模冒号区域。此外,为了克服稀疏视图带来的挑战,我们设计了一个DensiNet模块,在语义一致性的指导下对相机姿态进行密集化。我们在合成数据集和真实数据集上进行了广泛的实验来评估我们的ColonNeRF。在数量上,我们的ColonNeRF在四个评估指标的两个基准上优于现有的方法。值得注意的是,我们的LPIPSALEX分数在simcolto - 3d数据集上显示出约67% - 85%的大幅增长。定性地说,我们的重建可视化显示了更清晰的纹理和更准确的几何细节。这些充分证明了我们的性能优于最先进的方法。

关键词

无。

1. Introduction

结直肠癌(Colorectal cancer, CRC)是仅次于肺癌、乳腺癌和前列腺癌的第四大死亡原因[2]。尽管它很流行,但5年生存率可能会上升而接受早期筛查的患者则高达90%[16]。因此,早期识别结直肠癌至关重要[33,1,25]。结肠镜检查[10]因其操作方便、有效,已成为早期诊断结直肠癌最关键的检查之一。

然而,结肠镜扫描的准确性仍然受到结肠复杂几何形状的限制。据报道,即使是经验丰富的医生也可能会忽视22-28%的息肉,因为他们只依靠2D扫描,没有任何3D细节[19]。因此,高保真结肠镜重建对结直肠癌的诊断至关重要。重建也是各种下游临床应用的先决条件,例如术前检查和手术计划[39]。此外,它是医学教育的重要工具,并提供实践培训和技能发展。

SLAM[7]等传统方法已被引入到结肠镜重建中,通过在内镜场景中匹配二维(2D)图像像素及其对应的三维空间点。具体来说,Ma等人[27]将标准SLAM系统与深度和位姿预测网络相结合,实现了鲁棒跟踪系统。同时,Wang等[38]利用表面法向量的特性,开发了一个两步神经框架作为slam管道的初始化,以提高重建质量。然而,尽管SLAM在构建环境地图和跟踪智能体位置方面有能力[12],但在执行新视图合成任务时,它就不够了,这需要对场景的3D结构有全面的了解。因此,SLAM无法产生全面的3D重建,限制了其在现实场景中的实际应用。

为了解决3D重建中的新视图合成问题,NeRF[27]提出了用于连续场景表示的神经隐式场,并在复杂场景中生成高质量的新视图图像方面取得了巨大成功。受此启发,EndoNeRF[39],第一个利用神经渲染(NeRF)的作品,在手术场景的三维重建和变形跟踪方面表现出色。不像EndoNeRF,它专注于在有限的场景重建,我们的主要目标是精确重建整个长序列结肠镜检查。到目前为止,结肠镜重建的几个关键挑战仍未解决。

首先,冒号固有的蜿蜒和卷曲的形状导致其不同节段之间的差异。当直接使用NeRF时,这种可变性对实现高质量的长序列结肠镜重建造成了重大障碍。其次,简单和复杂的折叠几何结构共存,使得模型难以充分学习到节段中的每一个细节,导致成像数据中关键细节的丢失,给准确的结肠镜重建带来重大挑战。最后,由于在结肠镜拍摄过程中受到相机轨迹的约束,结肠镜数据具有稀疏视点的特点[39],阻碍了以往方法的性能[27]。

为了解决上述挑战,我们提出了一种新的3D结肠镜重建模型,称为ColonNeRF。ColonNeRF由三个专用模块组成。ColonNeRF中的每个模块都经过精心设计,以解决特定的重建挑战,它们优雅地结合在一起,确保全面准确的结肠镜检查重建。为了克服冒号区域由于其蜿蜒和卷曲的形状而导致的不相似性,我们设计了一个区域划分和积分模块,以确保每个单元的几何一致性。具体来说,分割模块是利用冒号的曲率和相邻的两个段学习到的关节区域,以一种软的方式将冒号分割成多个段。在双滤波策略下,积分模块负责对所有分割段进行融合。为了在统一的框架中学习简单和复杂的几何结构,我们使用多级融合模块逐步建模冒号结构,以粗到细的方式增强纹理和几何细节。为了应对来自稀疏视点的挑战,我们在每个阶段设计了DensiNet模块,以鼓励我们的模型从三个角度学习冒号特征:原始姿态、旋转姿态和螺旋旋转姿态。具体来说,我们使用基于dino - viti的语义一致性正则化来监督从密集的相机姿势重建。

1.1. Contributions

在我们的工作中,我们做出了以下主要贡献:我们设计了ColonNeRF,一个利用神经渲染进行高质量长序列结肠镜重建的新3D框架。

我们设计了一系列专门构建的重构机制,包括区域划分与整合模块、多层次融合模块和DensiNet模块。这些建议被证明是成功实现我们最先进的合成结果的关键。

在合成数据集和实际数据集上的实验表明,我们的方法实现了高质量的长序列结肠镜新视图合成,优于基线方法。值得注意的是,它在合成数据集上的LPIPS-VGG和LPIPSALEX指标分别取得了21%-29%和67%-85%的显著改进。

1.2. Paper Organization

本文的其余部分组织如下。在第二节中,我们将回顾最相关的工作,重点介绍3D重建和结肠镜重建的最新进展。第三节介绍了神经辐射场(NeRF)的初步知识,这是我们研究的基础。第四节致力于全面描述我们提议的方法,详细说明所采用的方法和技术。第V部分涉及对我们的模型进行详细的定量和定性评估,使用两个不同的数据集进行,以确保可靠的评估。最后,第六部分对本文的研究工作进行了全面的总结。

2. Related Works

2.1. 三维重建研究进展

传统上,3D场景重建和新视图合成(NVS)领域的许多研究都依赖于Lumigraph[17]、光场函数[20]、网格[14]、体素[3]、点云[13]和多平面图像(MPI)[9]等方法。虽然这些技术显著地推动了该领域的发展,但每种技术都有内在的局限性,影响了它们在复杂场景中的应用。例如,Lumigraph和光场函数在不同视点之间表现出较差的连续性,并且与复杂的光照条件和阴影效果作斗争,这限制了它们在长序列冒号数据集中的实际应用。网格需要复杂的拓扑结构,不适合建模复杂的结肠场景。由于其离散采样(合成高分辨率图像需要更精细的3D空间采样),体素和点云受到较差的时间和空间复杂性的限制。多平面图像(MPI)在建模复杂几何形状和遮挡时遇到困难[30]。

神经辐射场(Neural Radiance Fields, NeRF)[28]通过学习隐式神经场景表示,在新型视图合成中取得了令人印象深刻的结果。自其出现以来,已经取得了许多进步,突破了传统3D重建的有限性能通过利用可微渲染和神经网络[37,8,15,23,21]对静态和动态场景进行高保真的新颖视图合成。例如,Xu等人[41]利用未见视点上的伪标签来指导训练过程并提高模型性能。Barron等人[4]提出用锥形截锥代替单条射线来解决抗混叠问题。NeRF的扩展现在可以解决复杂和大型的环境,如Yuanbo等人[34]所证明的那样,他们开发了一种用于大规模场景渲染的变体,而BungeeNeRF[40]则提供了多尺度渲染。NeRF的多功能性也扩展到生成和编辑应用中[29,43,22],强调了NeRF在3D重建和新视图合成方面的显着进步。

2.2. 结肠镜检查重建

先前的工作已经在上述三维表示的基础上探索了三维结肠镜重建。Ma等人[26,27]开发了一种基于slam的系统,该系统采用后平均步骤来纠正相机姿势错误,展示了相机跟踪的进步。此外,Rau等[31]利用SFM伪标签和RNN模型进行6D相机姿态预测,将深度学习与重建相结合。Wang等人[38]利用光照和表面法线之间的关系来递归地细化法线和深度预测。Liu等[24]在重建观测区域的三维几何之前,提出了一种具有外观和几何的SLAM系统。虽然SLAM在生成环境地图和跟踪智能体的空间定位方面表现出色,但由于需要对场景3D结构进行详细建模,其性能在新视图合成过程中受到影响。这一缺陷阻碍了模型提供详尽的3D重建,从而限制了它在现实世界中的实用性。NeRF[28]的引入标志着一个转折点,催生了EndoNeRF[39]等利用神经渲染进行手术场景重建的方法。然而,EndoNeRF[39]侧重于有限的场景重建,不适合长序列结肠重建。

2.3. 预赛

神经辐射场(Neural Radiance Fields, NeRF)[28]通过将5D坐标(包括3D位置x和2D观看方向d)映射到RGB颜色c和体积密度σ来合成场景的新视图。图像中的每个像素对应一条射线r(τ) = o+τd,其中o为相机原点,d为射线方向,τ为原点与样本点之间的距离。该像素的预测颜色C(r)可以表示为:

为了便于NeRF多层感知器(mlp)捕获更多高频细节[35],输入x和d分别通过正弦位置编码γ进行预处理:

其中L是位置编码的层数。

NeRF[28]模型通过最小化合成渲染颜色与地面真色之间的均方误差来优化亮度场,如下所示:

其中Ri为训练时输入射线的集合,C(r), C(r)为射线r的基本真实值和预测的RGB颜色。

3. 方法

3.1. 框架体系结构

如图1所示,给定长序列结肠镜数据,我们首先通过区域划分模块对数据进行分割。B)保证每一段内的几何一致性。为了在统一的框架中学习简单和复杂的几何形状,我们使用了多级融合模块(第2节)。C)逐步学习冒号的几何结构,由粗到精的改进纹理和几何细节。受BungeeNeRF[40]的启发,该模型采用残差连接,使从后一个mlp获得的梯度能够顺利回流到早期的mlp。随后,DensiNet模块(章节D)通过致密化相机姿势来处理稀疏数据,结合原始,旋转和螺旋旋转姿势来增加数据。

如图2所示,在渲染过程中,我们运行区域整合模块(章节E)来过滤掉对最终输出贡献最小的块,并整合包含相关信息的块,以确保块之间的无缝过渡。最后,我们总结了培训目标(第F节)。

3.2. 区域划分模块

为了解决不同直径和曲率的结肠段之间的内在差异,我们开发了一个针对结肠蜿蜒和卷曲结构的区域划分模块。该模块的目的是对整个冒号进行分段重建,减少形状的不相似性,保证每个部分的几何一致性。具体来说,它将结肠在弯曲处或有明显角度变化的位置分割成块。

该方法不仅提高了每个片段之间的形状相似性,而且超越了将冒号作为单个单元处理的传统方法,提高了重建的整体质量和准确性。

将该区域划分模块应用于我们的数据集,我们调整了它的分割策略,以适应每个数据集的特定几何特征。在合成数据集中,该模块将冒号划分为31个不同的块,每个块包含大约40 ~ 50张图像。对于真实世界的数据集,我们将其分为四个块,每个块包含17 ~ 19张图像。我们确保相邻街区之间30%的重叠,以保持无缝过渡,这是准确重建的关键方面。这种重叠策略如图1所示,其中每个块由两个橙色区域包围的中心红色区域表示,表示重叠区域。我们在消融研究中进一步详细介绍了这种方法,确保更准确地重建结肠复杂的几何形状。

3.3. 多级融合模块

考虑到结肠的几何形状,它混合了简单的表面,复杂的褶皱,以及众多的血管和突起,模型重建的复杂性大大提高。仅仅依靠单一尺度的输入,集中在一个特定的尺度上,是不足以捕捉全部特征的。为了克服这一挑战,我们设计了一个多级融合模块,逐步模拟结肠结构,以粗糙到精细的方式增强纹理和几何细节。

具体来说,多级融合模块从低稀疏度RGB、深度和姿态数据的输入开始。它逐步融合更密集的数据,使从粗糙到精细的细节平滑过渡,从而提高了特征提取过程的有效性。随着模型进入下一阶段,我们集成了额外的多层感知器(MLP)模块,如图1所示。输入模型的每个i阶段的数据稀疏程度使用公式2n T * 2i计算,其中i表示阶段数,范围从1到n,而T表示检测的总持续时间。

模块的每个阶段包括两个子模块:DensiNet和可见性模块。DensiNet生成每个空间位置的RGB和密度σ值,而visibility模块由一个四层MLP网络和一个线性输出层组成,计算每个空间光线的透明度Ti。可见性模块用DensiNet输出的密度σ来监督透明度,根据公式计算透明度损失:

随着模型的发展,它继承了前一阶段的DensiNet和可见性模块的参数,并增加了两个残差连接,将前一阶段的颜色和密度输出连接到下一阶段。最后的输出将新计算的RGB c2和密度σ2值与每个阶段的输出结合起来,从而得到一个全面的最终图像。

应用于σ和c的最终值的激活函数包括密度的Sigmoid函数σ l和颜色的Softplus函数ζ。这种架构设计精通于整合不同稀疏度级别的特征,从而促进了详细而细致的图像恢复。

3.4. DensiNet模块

由于在结肠镜采样过程中摄像机运动轨迹受到约束,所获得的稀疏三维点会显著降低重建质量。为了应对这一挑战,我们设计了DensiNet模块,该模块利用MipNeRF[4]作为其主干。尽管MipNeRF[4]在处理歧义方面优于原始NeRF[28],但它仍然在稀疏数据采样方面遇到困难。我们的DensiNet模块增强了模型从稀疏相机姿势中捕获冒号特征的能力。

在DensiNet模块中,我们的方法从原始视图下的RGB和深度图像的补丁采样开始。具体来说,我们使用7的步幅提取56×56补丁,并使用下面的公式通过比较这些提取的补丁与渲染后图像中对应的补丁之间的差异来计算补丁损失。

其中Lp为补丁损耗。R1和D1表示通过patch采样技术获得的RGB和深度图像的采样点。函数f对应于MipNeRF[4]所进行的处理网络。f(R1)和f(D1)为MipNeRF的RGB和depth输出结果[4]。

其次,为了进一步提高从原始视点学习结构的能力,我们从RGB和深度图像中随机选择3136个点。我们从RGB和深度渲染结果中计算这些点与相应的后渲染点之间的均方误差(MSE)损失,如下面的公式所示。

其中Lm表示均方误差(MSE)损失。变量R2和D2对应于使用随机选择策略从RGB和深度图像中采样的点。我们可以得到最终的原始姿势损失。

为了克服数据的稀疏性,我们整合了两种新姿态的监督——旋转姿态和螺旋旋转姿态。这些姿势分别用于探索原始姿势的周围区域和结肠壁的几何结构,增强了模型的语义一致性能力。我们在随后的部分阐明这些姿势的细节。

旋转姿势。为了增强原始姿态周围几何结构的重建,我们采用旋转变换从原始姿态获得旋转姿态。对于原视图上任意给定像素P (xi, yi),其在目标位姿Pdes上对应的位置可表示为:

式中,Rdes和tdes分别为目标位姿的旋转矩阵和平移向量。同样,Rori和tori代表原始姿势。使用D将像素坐标P (xi, yi)转换为相机世界坐标(x, y, z),然后使用外在矩阵将当前相机世界坐标转换为世界坐标系。利用目标位姿外部矩阵将世界坐标系转换为目标摄像机坐标系。

在旋转后重叠点的情况下,保留深度值最小的点。我们围绕初始原始姿态进行旋转采样,沿着x、y和z轴以不同角度(5度、2.5度和1.25度)旋转,生成216个定向姿态。我们从216个姿势中整合所有的光线,每次随机选择3136条光线作为我们的旋转姿势。

螺旋旋转姿势。由于结肠褶皱的螺旋特性,DensiNet模块采用螺旋形采样轨迹来捕捉褶皱的三维结构。具体来说,我们使用Slerp(球面线性插值)算法在当前位姿P3和相邻位姿P4之间进行插值,该算法产生一个四元数,表示中间位置的方向。内插位置的轨迹形成一个螺旋路径,定义为:

R应该控制在小于冒号半径的范围内。T表示插值位置,h表示插值密度。(x3, y3, z3)和(x4, y4, z4)表示P3和P4的位置。我们执行400插值并随机选择一个作为我们的螺旋旋转姿势。

通过图像翘曲,获得许多未见视图的深度和RGB图像,作为伪地面真值标签。为了监督旋转视图中的冒号几何结构,我们使用以下损失函数计算这些目标深度与DensiNet在相同姿态下渲染的深度之间的差异:

上式中,L1表示平滑L1损耗[11]。Hd为螺旋变换得到的深度,Sd为自旋变换得到的深度,D3为对应变换方法的DensiNet渲染的深度。

该模型利用这些姿态来显著缓解稀疏视点的挑战,并探索原始姿态和结肠壁周围看不见的空间。

DINO-ViT[6]视觉变形器(Vision Transformers, ViT)已被证明是一种有效的图像纹理对齐工具,具有提取有价值纹理特征的能力[36]。我们利用这个工具来解决原始视点和旋转视点之间的语义不匹配-在螺旋旋转姿态和旋转姿态变换下遇到的问题。我们的目标是保持旋转后的视图与原始视点之间的风格相似性和视觉一致性。

我们使用预训练的DINO-ViT模型[6],该模型是在ImageNet数据集[32]上训练的,用于特征提取。为了确保语义相似性,我们提取标记来捕获原始视图和旋转视图之间的语义外观。我们使用MSE损失来计算提取的特征之间的损失:

这里,FViT表示我们用来从原始图像的RGB中提取语义信息的预训练模型nal视图OV和渲染RGB导致旋转视图RV。

3.5. 区域集成模块

过滤方法。为了提高结肠融合过程的效率,我们建立了两种过滤无用块的机制。首先,如图2所示,出于可靠性考虑,我们只考虑观测点一定范围内的区块。具体来说,我们计算观察点与相邻两个块中心连接线之间的欧几里得距离。如果这个距离小于结肠直径的1.5倍,则保留一个块以进行进一步处理,以确保一致和可靠的选择标准。

我们的第二个过滤策略利用之前在DensiNet模块中介绍的可见性模块来计算该点对各自块的透明度。对于每个空间射线,我们计算目标视图中第i块的透明度度量Ti。这种透明度度量从0(完全不可见)到1(完全可见)不等。一个接近1的值表示这个3D点非常接近这个DensiNet模块,我们可以利用它。相反,如果透明度下降,低于某个阈值,我们将在最终合成过程中排除该块。实验表明,该可见性模块收敛速度快,且由于其结构小,计算负荷可以忽略不计。

合并方法。为了在滤波后合并相邻的片段,我们采用Tancik等人[34]提出的逆距离加权(IDW)技术。我们选择这种方法是因为它可以有效地实现相邻段之间的平滑过渡。此方法减轻了当合并过程仅依赖于最近的DensiNet进行图像渲染时发生的边缘抖动。

具体而言,我们计算目标视图Pt到块中心的距离,并经过双重滤波处理。我们根据以下公式确定每个块的插值合并权值W:

其中ε表示渲染混合比例。在计算每个可观块i的权重Wi后,我们将其归一化以获得权重Wi。随后,我们使用以下公式合成目标视点的最终深度和RGB图像。

其中n表示通过双重过滤过程的块数。

3.6. 总体目标

我们最终的损失函数如下所示:

其中λ1λ2λ3λ4分别表示不同损失的权值。我们的目标是在确定各种损失函数的权重值时平衡不同分量的数值尺度。该操作确保每个损失项对整个优化过程的贡献是相当的。此外,为了强调几何深度监督的重要性,我们有意为深度损失分量分配了更高的权重。因此,我们将λ1λ2λ3λ4分别初始化为8,1,10和1。

4. 实验

4.1. 数据集

为了评估我们的方法的性能,我们使用了合成和现实世界的数据集。我们的合成数据集来自simcolto - 3d 2022提供的结肠镜数据集[31]。我们主要使用序列1,它在包含图像以及相应的姿势,深度和内在和外在参数方面是全面的。对于现实世界的数据集,我们主要采用C3VD降号数据集[5],因为它们在反映实际操作条件方面具有适用性。

4.2. 评价指标

我们采用了几个广泛用于比较视图综合质量评估的指标:峰值信噪比(PSNR)、学习感知图像斑块相似性(LPIPS)和多尺度结构相似性指数度量(MS-SSIM)。对于LPIPS,我们采用基于VGG和AlexNet主干网的两种感知度量来确保全面的评估。

4.3. 实现细节

我们的框架是使用PyTorch实现的。所有实验均在8颗NVIDIA RTX3090 gpu上进行。MipNeRF[4]作为骨干网。我们采用Adam优化器[18],初始学习率为2e-4,在训练过程中逐渐降低。

我们的合成数据集包括989帧;我们大致相等地每四帧采样一帧作为测试集,并使用其余帧作为火车集,得到233张测试图像和756张火车图像。真实世界的数据集同样分为35张火车图像和19张测试图像。在我们的DensiNet中,我们应用216个不同的旋转角度并随机采样3136条光线进行训练。

4.4. 与最先进方法的比较

我们主要将我们的模型与几种主流的3D重建方法进行比较,包括合成数据集[31]和真实数据集[5]上的NeRF[28]、MipNeRF[4]、FreeNeRF[42]和EndoNeRF[39]。在评估之前,我们对每个场景的参数进行微调,以确保公平的比较。

定性比较。如图3所示,我们在合成数据集和真实数据集上的新视图合成结果显示出明显的清晰度改进。NeRF[4]、FreeNeRF[42]和EndoNeRF[39]渲染的图像呈现出明显的模糊,模糊了关键细节,如褶皱结构,特别是在更深的肠道区域。尽管MipNeRF[4]保留了一些细节,但它经常学习到不正确的几何形状。此外,四条基线的重建深度结果与地面真实值存在显著偏差,可能会误导临床诊断。

我们的模型提供了最高质量的新颖视图合成结果,特别是在表示褶皱和肠壁方面,并且即使在更深的区域也提供了最清晰的渲染结果。它还能准确捕捉结肠的几何形状,这对精确的形态分析至关重要。

定量比较。我们主要比较了四个基线下的四个评价指标,结果见表1。标签SynReal分别对应于simcolto - 3d[31]和C3VD真实世界数据集[5]上的结果。我们的模型在所有指标中表现出最高的定量性能。具体来说,PSNR指标在合成数据集和真实数据集上分别提高了2.2%和3.08%。在综合数据上使用LPIPS-VGG和LPIPS-ALEX指标,我们的模型比MipNeRF的性能分别高出约21%和67%。在真实世界的数据集上,我们在最佳基线上实现了2.3%和6.5%的改进。对于sim - ms度量,合成数据集和真实数据集的改进分别为5%和3.2%。ColonNeRF提供的精确和详细的重建可以更准确地对结肠结构进行形态学分析。为临床评估和治疗计划提供了可靠的参考,突出了我们的模型在医学应用中的优越能力和适用性。

4.5. 消融实验

多级融合模块的效果。我们通过研究合成数据集和真实数据集来探索我们多级融合模块的功效,结果如图4和表2所示。我们的分析包括对每个加工阶段进行单独的评估——粗、中、细。当模型运行时没有多级融合模块,即只有粗阶段时,我们输入c1和σ1从粗化阶段直接进入后续的积分模块。如图所示,这种配置导致明显模糊的重建,特别是在边缘周围。

随着阶段的增加,模型由易到难逐步重构冒号区域,整合更多细粒度信息,对细节信息的描述更全面,噪声更小。考虑效率和计算时间,我们最终选择实施三个阶段。该模块有效地改善了褶皱和凸起的几何效果和颜色效果。

除法与积分模块的作用。我们评估了划分和集成模块对模型性能的影响。我们在图5和表3中给出了结果。如果没有分割模块,处理所有肠道数据的单个块会导致明显的失真和伪像。这是因为该模型在处理蜿蜒曲折的结肠的各种外观和剧烈的角度变化方面具有挑战性。划分模块使每个划分的段尽可能相似,这样我们的模型可以更好地重建相应区域的结构。

实现集成模块显著提高了重建结果,特别是在相邻块区域之间的转换。该模块可以结合多个块对该区域的理解,实现平滑无缝的过渡。增强的细节保真度,精确的几何形状和过渡平滑强调了集成模块的重要性。

DensiNet模块的作用。我们探讨了不同姿态的集成输入的影响,包括螺旋旋转姿态和旋转姿态。如图6和表4所示,1个视图:原始姿态为输入,2个视图:原始姿态+螺旋旋转姿态为输入,3个视图:原始姿态+螺旋旋转姿态+旋转姿态为输入。通过整合螺旋旋转姿态的特征,该模型显着降低了模糊性,并显着提高了对肠道几何结构的理解。对旋转积分围绕姿态进一步减少伪影的发生,锐化轮廓,增强深度估计,从而获得更好的精度。我们的经验证据表明,结合每个新的视点提供了语义一致性的指导,并提高了深度估计的准确性和渲染图像的整体清晰度。

粗到精的影响。我们进行了消融实验,以评估在第一个区块数据中粗变细策略的有效性。这涉及将第一阶段直接输入细粒度数据的结果与逐步输入(从粗粒度数据转换到细粒度数据)的结果进行对比。实验结果如图7和表5所示。该模型采用从粗到精的方法,在统一的框架中学习简单几何和复杂几何,并逐步对冒号进行从容易区域到困难区域的建模,从而得到细节改进的重建。

5. Discussion

该方法具有较好的几何和纹理合成精度。值得注意的是,我们的深度结果显示出明显的改善而不是其他方法。促成这一成功的一个关键组成部分是提出的DensiNet模块。该模块采用角度旋转变换,实现了几何估计的多视点协同监督,有效缓解了建模困难,克服了稀疏视点导致的过拟合问题。

尽管基于nerf的表示提供了更高质量的NVS结果,但由于其体积渲染过程,其特点是耗时长。提高训练效率的一个潜在解决方案是提出一种更先进的3D表示策略,该策略具有建模灵活性和渲染速度优势。

6. Conclusions

在这项工作中,我们介绍了ColonNeRF,这是一种设计用于长序列结肠镜重建的创新框架。为了解决这一问题,我们提出了一个区域划分和集成模块,将长序列冒号分割成短块,一个多级融合模块,将块冒号由易到难逐步建模,以及一个DensiNet模块,在语义一致性指导下对采样的相机姿态进行密度化。我们的广泛测试表明,ColonNeRF优于形成了四种基于nerf的重建质量方法,在合成和现实环境中都得到了验证。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值