来源: 学姐带你玩AI 作者:橡皮
编辑:学姐
论文链接:https://arxiv.org/abs/2211.12254[1]
项目主页:https://spinnerf3d.github.io/[2]
摘要:
神经辐射场 (NeRF) 已成为新颖视图合成的流行方法。虽然 NeRF 正在迅速适应更广泛的应用,但直观地编辑 NeRF 场景仍然是一个开放的挑战。一项重要的编辑任务是从 3D 场景中删除不需要的对象,以便替换的区域在视觉上合理且与其上下文一致。我们将此任务称为 3D 修复。在 3D 中,解决方案必须在多个视图中保持一致,并且在几何上有效。在本文中,我们提出了一种新颖的 3D 修复方法来解决这些挑战。给定单个输入图像中的一小组姿势图像和稀疏注释,我们的框架首先快速获得目标对象的 3D 分割掩模。然后使用掩模引入基于感知优化的方法,该方法利用学习的 2D 图像修复器,将其信息提取到 3D 空间,同时确保视图一致性。我们还通过引入由具有挑战性的现实世界场景组成的数据集来解决缺乏评估 3D 场景修复方法的多样化基准的问题。特别是,我们的数据集包含具有和不具有目标对象的同一场景的视图,从而能够对 3D 修复任务进行更原则性的基准测试。与基于 NeRF 的方法和 2D 分割方法相比,我们首先展示了我们的方法在多视图分割方面的优越性。然后,我们评估 3D 修复任务,建立针对其他 NeRF 操作算法的最先进性能,以及强大的 2D 图像修复基线。

图 1. 我们的 3D 修复框架的输入和输出示例。除了从场景中捕获的图像及其相应的相机参数之外,用户还需要在单个图像中提供几个点来指示他们希望从场景中删除哪个对象(左上插图)。然后,这些稀疏注释会自动转移到所有其他视图,并用于多视图掩模构建(右上插图)。生成的 3D 一致掩模用于感知优化问题,从而导致 3D 场景修复(下排),并将优化 NeRF 的渲染深度显示为每个图像作为插图。
1.引言
神经渲染方法,特别是神经辐射场(NeRF),最近已成为表示和重建场景的新模式,在新颖的视图合成方面取得了令人印象深刻的结果。大量的研究工作继续集中在制定更高效的 NeRF,以使 NeRF 在计算资源更有限的用例中更容易访问。随着 NeRF 的普及,编辑和操作 NeRF 所代表的场景的需求将继续增长。一种值得注意的编辑应用程序是删除对象并修复 3D 场景,类似于经过充分研究的 2D 图像修复任务。然而,有几个障碍阻碍了这项任务的进展,不仅是 3D 修复过程本身,而且是获取输入分割掩模。首先,NeRF 场景在神经映射权重中隐式编码,从而产生一种纠缠且不可解释的表示,这种表示很难操作(与 2D 图像阵列或 3D 网格的显式离散形式相比)。此外,任何修复 3D 场景的尝试不仅必须在单个给定视图中生成感知上真实的外观,而且还必须保留基本的 3D 属性,例如跨视图的外观一致性和几何合理性。最后,为了获得目标对象的掩模,对于大多数最终用户来说,与 2D 图像交互比 3D 界面更直观;然而,需要对多个图像进行注释(并维护视图一致的片段)对用户来说是很麻烦的。一个有吸引力的替代方案是单个视图只需要最少的注释集。这激发了一种能够从单视图稀疏注释获取对象的视图一致的 3D 分割掩模(用于修复)的方法。
在本文中,我们通过一种集成方法解决了这些挑战,该方法接收场景的多视图图像,以最少的用户输入提取 3D 掩模,并将 NeRF 拟合到掩模图像,以便用可信的 3D 外观替换目标对象和几何。现有的交互式 2D 分割方法没有考虑问题的 3D 方面,而当前基于 NeRF 的方法无法使用稀疏注释来表现良好,或者无法获得足够的精度 。类似地,虽然当前的一些 NeRF 操纵算法允许物体移除,但它们并不试图对新揭开的空间部分提供感知上真实的修复。据我们所知,这是第一个在单个框架中处理交互式多视图分割和完整 3D 修复的方法。
我们的技术利用现成的、不支持 3D 的模型进行分割和修复,并以视图一致的方式将其输出传输到 3D 空间。基于(2D)交互式分割文献,我们的框架从目标对象上的少量用户定义的图像点(以及其外部的一些负样本)开始。由此,我们的算法使用基于视频的模型初始化掩模,并通过拟合语义 NeRF将它们提升为连贯的 3D 分割。然后,在将预训练的 2D 修复器应用到多视图图像集后,使用定制的 NeRF 拟合过程来重建 3D 修复场景,利用感知损失来解决 2D 修复图像中的不一致问题,以及修复深度图像以规范遮罩区域的几何形状。总的来说,我们在一个统一的框架中提供了一个完整的方法,从对象选择到修复场景的新颖视图合成,对用户的负担最小,如图 1 所示。
我们通过广泛的定性和定量评估证明了我们方法的有效性。此外,我们解决了缺乏比较场景修复方法的基准的问题,并引入了一个新的数据集,其中也可以使用“真实修复”(即没有对象的场景的真实图像)。
总之,我们的贡献如下:
(i) 3D 场景操作的完整过程,从用户交互最少的对象选择开始,到 3D 修复 NeRF 场景结束;
(ii) 为了执行此类选择,将 2D 分割模型扩展到多视图情况,能够从稀疏注释中恢复 3D 一致的掩模;
(iii) 为了确保视图一致性和感知合理性,NeRF 中基于优化的 3D 修复新颖的公式利用了 2D 修复器;
(iv) 用于 3D 对象去除评估的新数据集,其中包括相应的无对象真值。
2.背景:神经辐射场
NeRFs将 3D 场景编码为函数,将 3D 坐标 x 和视图方向 d 映射到颜色 c 和密度 σ。函数 f 可以通过多种方式建模。对于光线 r,预期颜色是通过求积法进行体积渲染来估计的;光线被分为和(近边界和远边界)之间的 N 个部分,其中从第 i 个部分采样,以渲染估计的颜色:

其中/是透射率,δ是两个相邻点之间的距离,和分别是σ处的颜色和密度。对于穿过训练视图像素的光线,可以使用真实颜色,并且使用重建损失来优化模型:

其中是从训练视图中采样的射线批次。
3.方法
给定一组 RGB 图像,,对应的 3D 姿态,,以及相机内在矩阵 K,我们的模型需要一个带有稀疏用户注释的附加“源”视图(即,识别不需要的对象的几点)。根据这些输入,我们生成了场景的 NeRF 模型,能够从任何新颖的视角合成修复图像。我们首先从单视图注释源获取初始 3D 掩模(第 3.1.1 节),然后拟合语义 NeRF,以提高掩模的一致性和质量(第 3.1.2 节)。最后,在第 3.2 节中,我们描述了视图一致的修复方法,该方法将视图和恢复的蒙版作为输入。我们的方法利用 2D inpainters的输出作为外观和几何先验来监督新 NeRF 的拟合。图 1 说明了我们的整个方法,包括输入和输出。更多详细信息请参阅我们的补充材料。
3.1多视图分割

图 2.我们的多视图分割架构概述。作为输入,该网络接受 3D 坐标 x 和视图方向 d,并返回与视图无关的密度 σ(x)、对象性 logit s(x) 和与视图相关的颜色 c(x; d)
3.1.1掩码初始化
我们首先描述如何从单视图注释初始化粗略的 3D 掩模。将带注释的源视图表示为。有关对象和源视图的稀疏信息被提供给交互式分割模型,以估计初始源对象掩模。然后将训练视图视为视频序列,并与一起提供给视频实例分割模型 V ,以计算;其中是对象掩码的初始猜测。初始掩码在边界周围通常不准确,因为训练视图实际上不是相邻的视频帧,并且视频分割模型通常是 3D 感知的。因此,我们使用语义 NeRF 模型来解决不一致问题并改进掩模(第 3.1.2 节),从而获得每个输入视图的掩模,用于修复(第3.2节)。
3.1.2基于 NeRF 的分割
我们的多视图分割模块采用输入 RGB 图像、相应的相机内在和外在参数以及初始掩模,并训练语义 NeRF。图2描述了语义NeRF中使用的网络;对于点 x 和视图方向 d,除了密度 σ(x) 和颜色 c(x; d) 之外,它还返回前 sigmoid“对象性”logit s(x)。然后获得客观概率为 p(x) = Sigmoid s(x) 。由于其快速收敛,我们使用 Instant-NGP作为我们的 NeRF 架构。与射线 r 相关联的预期客观性 logit 是通过渲染 r 上点的 logit 而不是它们的颜色(相对于密度)获得的,如方程 1 所示:

其中为简单起见,用 si 表示。然后使用分类损失来监督射线的客观概率:

其中 1 是指示函数,BCE 代表二元交叉熵损失,是穿过中屏蔽的像素的光线集合。在分类损失的计算过程中,渲染方程(方程 1)中颜色的权重被分离,以限制对 logits 的监督更新;这可以防止由于梯度更新改变 σ 场而改变现有几何形状。通过给定的 RGB 图像,使用重建损失来监督几何形状,如 NeRF中所示。用于监督基于 NeRF 的多视图分割模型的总体损失由下式给出:

其中分类权重 λclf 是一个超参数。优化后,通过对目标概率进行阈值处理并掩蔽概率大于 0:5 的像素,获得 3D 一致掩码。最后,我们使用两个阶段进行优化以进一步改进掩模;获得初始 3D 掩模后,从训练视图渲染掩模,并用于监督辅助多视图分割模型作为初始猜测(而不是视频分割输出)。
3.2多视图修复
图 3 显示了我们的视图一致修复方法的概述。由于数据缺乏,无法直接训练 3D 修复器,因此我们的方法利用现有的 2D 修复器来获取深度和外观先验,然后监督 NeRF 与已完成场景的拟合。这个修复后的 NeRF 使用以下损失进行训练:

其中是未遮蔽像素的重建损失,LLPIPS 和 Ldepth 定义感知和深度损失(见下文),权重为 λLPIPS 和 λdepth。

图 3.我们的修复方法概述。使用摆好姿势的输入图像及其相应的掩模(左上和左下插图),我们获得(i)目标对象存在的初始 NeRF 和(ii)删除了目标对象的一组修复输入 RGB 图像(但查看不一致之处)。初始 NeRF (i) 用于计算深度,我们对其进行修复以获得深度图像作为几何先验(右上插图)。修复后的 RGB 图像 (ii) 充当外观先验,与深度先验一起使用,以使 3D 一致的 NeRF 适合修复的场景。
3.2.1RGB先验
我们提出的视图一致修复方法使用 RGB 输入,,相机内在和外在参数,以及相应的对象掩模,,将 NeRF 拟合到没有不需要的对象的场景。首先,将每个图像和掩模对提供给图像修复器 INP,以获得修复后的 RGB 图像,,其中。由于每个视图都是独立修复的,因此使用修复视图直接监督 NeRF 会因每个 之间的 3D 不一致而导致结果模糊(见图 7)。在本文中,我们不使用均方误差(MSE)来优化遮蔽区域,而是建议使用感知损失LPIPS来优化图像的遮蔽部分,同时仍然对未遮蔽部分使用MSE ,无需修复。该损失计算如下:

其中 B 是一批介于 1 和 n 之间的索引,是使用 NeRF 渲染的第 i 个视图。我们的多视图修复和分割模型使用相同的架构(见图 2),除了额外的 logit 输出 s。
3.2.2深度先验
即使存在感知损失,修复视图之间的差异也会错误地引导模型收敛到退化几何形状(例如,“雾”几何形状可能会在相机附近形成,以解释不同的每个视图信息)。因此,我们使用修复的深度图作为 NeRF 模型的附加指导,并在计算感知损失时分离权重,并使用感知损失仅适合场景的颜色。为此,我们使用对包含不需要的对象的图像进行优化的 NeRF,并渲染与训练视图相对应的深度图,。深度图是通过将到相机的距离而不是点的颜色代入方程1来计算的:

然后将渲染的深度提供给修复者以获得修复的深度图,,其中通过获得。我们发现使用 LaMa进行深度修复(如在 RGB 情况下)给出了足够高质量的结果。请注意,这都是作为预处理步骤计算的,并且使用 NeRF 在原始场景上进行了优化。该 NeRF 可以与用于多视图分割的模型相同。如果使用其他来源来获取蒙版,例如人类注释的蒙版,则会将新的 NeRF 安装到场景中。然后,这些深度图用于通过渲染深度到修复深度 的 L2 距离来监督修复的 NeRF 几何形状:

其中和 是光线 r 的深度值。

图 4.我们数据集中的场景。列:输入视图(左)、相应的目标对象蒙版(中)以及来自不同相机姿势的没有目标对象的地面实况视图(右)。行:不同的场景;
3.2.3基于补丁的优化
计算感知损失(方程 7)需要在优化期间渲染完整的输入视图。由于渲染每个像素需要多次前向传递通过 MLP,对于高分辨率图像来说,这是一个昂贵的过程,导致以下问题:(i) 批量大小必须很小才能适合渲染的图像及其对应的内存中的计算图,以及 (ii) 优化缓慢,即使批量大小小至。
一个简单的解决方案是渲染缩小的图像并将其与修复图像的缩小版本进行比较;然而,如果缩减因子很大,这会导致信息丢失。继基于图像的工作(例如 SinGAN 和 DPNN)和 3D 工作(例如 ARF)之后,我们在补丁的基础上执行计算;我们不是渲染完整的视图,而是渲染批量的较小补丁,并根据感知损失将它们与修复图像中的对应部分进行比较。
仅使用对象蒙版边界框内的补丁。为了拟合未遮蔽的区域,请回想一下(Eq.6) 只是更改(Eq.2) 以仅从未遮蔽的像素采样光线。通过分离感知和重建损失,我们可以防止掩模内的不一致,同时避免对场景的其余部分进行不必要的更改。
3.2.4掩码精细化
在这里,我们考虑进一步利用多视图数据来指导图像修复。特别是,当前由 2D 图像修复器生成的部分训练图像可能在其他视图中可见;在这种情况下,无需幻觉这些细节,因为可以从其他视图中检索它们。为了防止这种不必要的修复,我们提出了一种掩模细化方法:对于每个源图像、深度和掩模元组(Is;Ds;Ms),我们将 Is 和 Ds 中至少从另一个视图可见的像素替换为缩小源蒙版,女士。经过此细化步骤后,所有训练视图中只有被不需要的对象遮挡的 Is 和 D 部分将保持蒙版。因此,图像修复师必须填充较小的区域,从而改善修复效果。
4.实验
数据集。 为了评估多视图分割(MVSeg),我们采用来自 LLFF、NeRF360、NeRF-Supervision和 Shiny的真实场景。对于多视图(MV)修复,除了提供 IBRNet场景的定性结果之外,我们还满足了对标准基准的需求,包括对没有不需要的对象的场景进行真实捕获作为测试视图,并引入了一个包含 10带有人类注释对象蒙版的真实世界前向场景。对于每个场景,我们提供 60 张有物体的训练图像和 40 张没有物体的测试图像。该数据集还适合评估实时 3D 修复、无监督 3D 分割和视频修复等任务。图 4 显示了数据集两个场景的示例视图。
指标。 为了评估我们的分割模型,我们使用预测的准确性(逐像素)和并集交集 (IoU) 指标。对于 MV 修复,我们遵循图像到图像文献并报告平均学习感知图像块相似度(LPIPS),以及地面实况测试视图和模型输出分布之间的平均 Frechet 起始距离(FID)。由于我们的重点是修复,因此我们只计算对象遮罩边界框内的 LPIPS 和 FID(使用我们的 MVSeg 模型,我们可以从不包含对象的测试视图渲染对象遮罩)。
多视图分割基线。 对于 MVSeg,一类基线是基于投影的方法:使用 NeRF 中的场景几何形状将源掩模投影到其他视图中。这给我们在其他视图中提供了一个不完整的掩模。然后,将各种交互式分割方法应用于不完整的掩模,传播它们以获得完整的对象掩模:Proj.+ Grab Cut 和Proj. + EdgeFlow。此外,我们还考虑了Proj. + EdgeFlow + Semantic NeRF,其中安装了额外的 Semantic NeRF 以使输出 3D 一致。另一个基线是将 2D 像素级特征提取到 3D 场景并对它们进行后处理以获得分割掩模的并发工作的代表。作为视频分割的基线,我们与 Dino 进行比较,因为它不依赖于时间上接近的相邻帧。

表 1. 用于将源掩模转移到其他视图的任务的多视图分割模型的定量评估。

表 2. 使用人工注释的对象掩模对我们的修复方法进行定量评估。
多视图修复基线。 Masked NeRF 仅使用未屏蔽的像素来优化 NeRF。Object NeRF过滤 3D 中不需要的点,而不显式修复丢失的区域。NeRF-In没有可用的代码,因此我们使用我们自己的模型实现,并稍加修改(我们使用 LaMa作为修复程序)。此外,我们将我们的结果与 LaMa作为最先进的 2D 修复师的代表进行比较。为了能够公平比较基于 NeRF 的 3D 模型(除了修复之外,还必须合成新颖的视图),我们通过 (i) 在具有对象 2 的视图上拟合 NeRF,(ii) 渲染测试来与 LaMa 进行比较来自安装的 NeRF 的视图,以及 (iii) 将这些渲染图像传递给 LaMa。最后,作为参考并作为理想的“黄金标准”3D 修复基线,我们在真实测试图像上安装 NeRF,使用优化的 NeRF 渲染测试视图,然后将渲染结果与真实结果进行比较。我们提供这些结果是为了完整性,作为使用相同 NeRF 架构时可以预期获得的最佳结果的上限。
4.1 结果
多视图分割。 我们首先评估我们的 MVSeg 模型,无需任何修复。在这个实验中,我们假设稀疏图像点已经提供给现成的交互式分割模型,并且源掩模可用。因此,任务是将源掩码传输到其他视图。表 1 显示我们的模型优于所有 2D(3D 不一致)和 3D 一致基线。此外,我们的两阶段优化有助于进一步改进获得的掩模。
图 5 定性地比较了我们的分割模型的结果与神经体积对象选择 (NVOS) 和视频分割的输出。与 3D-unaware 视频分割模型的粗糙边缘相比,我们的模型减少了噪声并提高了视图之间的一致性。尽管 NVOS 使用涂鸦,而不是我们模型中使用的稀疏点,但我们的 MVSeg 在视觉上优于 NVOS。由于 NVOS 代码库不可用,我们复制了已发布的 NVOS 定性结果(更多示例请参阅补充)。

图 5. 我们的多视图分割模型与神经体积对象选择 (NVOS) 、视频分割和人工注释掩模 (GT) 的定性比较。我们的两阶段方法是指运行我们的多视图分割模型两次,第一次运行的输出作为第二次运行的初始化(参见§3.1.2)。我们的方法比 NVOS 噪音要小,NVOS 也会错过一些目标片段(例如,底行最低的花朵),但比单独的视频分割捕获更多细节(例如,花朵的模糊边缘)。我们的两阶段方法有助于填补一阶段输出的一些缺失方面。
多视图修复。 我们的数据集用于根据基线对我们提出的修复方法进行定量评估。表 2 显示了我们的 MV 修复方法与基线的比较,假设给出了所有视图的对象蒙版。“理想”行不是基线,而是适合真实测试视图(没有对象的场景视图)的 NeRF。虽然这只是许多可能的修复场景的一个实例,但它提供了一种方便的方法来衡量人们在这种情况下合理预期的最佳性能。总的来说,我们的方法明显优于替代的 2D 和 3D 修复方法。尽管我们的模型使用 2D 图像修复器的输出来获得视图一致的修复 NeRF,但除了感知损失函数编码的先验之外,它还能够使用 MV 信息的集合来超越 2D 修复器。表 2 进一步表明,删除几何引导会损害修复场景的质量。
我们在图 6 中显示了 MV 修复方法的定性结果,表明它可以重建具有详细纹理的视图一致场景,包括闪亮和非闪亮表面的一致的视图相关辐射度。此外,在图 7 中,我们提供了与未发布的并发工作 NeRF-In的直观比较,该工作具有第二低的误差。我们观察到,适合所有修复视图的 NeRFIn 模型会导致输出模糊。或者,由于缺乏对依赖于视图的辐射的监督,以及网络的外推能力较差,使用单个修复视图来监督遮罩区域会导致进一步视图中的伪影。相比之下,我们的感知方法放宽了掩模区域中的精确重建约束,从而尽管使用所有图像也可以防止模糊,同时避免单视图监督造成的伪影。
表 2 显示,细化对修复质量提供了小幅但显着的提升,因为较小的掩模需要修复者产生较少的幻觉。然而,根据经验,细化只是巧妙地修剪了掩模(在我们的数据集上将平均掩模区域减少了 4:74%),因为相机在数据收集期间的移动有限,以确保训练和测试视图之间的相似性。此外,由于嘈杂的 NeRF 几何形状投射不正确的值,细化深度会降低性能,而仅细化颜色即可达到我们的最佳结果。
到目前为止,我们的实验独立检验了 MVSeg 和 MV 修复的性能;然而,人们可以将它们结合起来,以最少的用户交互从 NeRF 场景中删除对象。表 3 显示,使用 MVSeg 模型的输出蒙版(而不是使用人工注释的对象蒙版)会导致修复质量略有下降。然而,我们的 MVSeg 模型仍然优于其他方法,即使它们适合人工注释的分割。

表 3. 使用多视图分割模型的输出对我们的修复方法进行定量评估。

表 4. 根据输入视图数量(上半部分)和掩模膨胀级别(下半部分)对我们的 3D 修复方法进行评估。
4.2.变异和消融研究
输入视图的数量。 限制输入视图的数量是文献中用来调节 NeRF 重建质量的标准方法。表 4 显示,输入较少时,我们的修复程序的性能会下降。因此,我们认为,随着质量更好的 NeRF 的引入,我们的方法(与底层 NeRF 模型无关)可以很容易地受益。
准确掩模的重要性。 在这里,我们通过使用 5 × 5 内核的对象蒙版的可变膨胀来检查精确蒙版对修复的影响。较大的蒙版会导致 2D 修复者更多地依赖视图不一致的输出和幻觉,而较小的蒙版可能会允许部分不需要的对象的边缘保留并迷惑 2D 修复者。微妙的扩张对于减少阴影的影响也很有用。表 4 展示了过度掩蔽和欠掩蔽之间的这种平衡,其中五次膨胀迭代被发现是最佳的,因此可用于所有其他实验。

图 6. 我们的视图一致修复结果的可视化。每个插图的上行显示来自新颖视图的原始场景的 NeRF 渲染,第一张图像还显示相关的蒙版。下面的行显示相应的修复视图。请注意,合成视图彼此保持一致;然而,依赖于视图的效果仍然存在(例如,钢琴未覆盖部分的照明)。请参阅我们的补充以了解其他场景,以及我们的项目网站,其中包含视频以实现更好的可视化。

图 7. 与其他基线的定性比较。专栏:场景的新颖视图,由 NeRF(在未屏蔽图像上)、NeRF-In、NeRF-In(使用单个屏蔽训练图像)以及我们的方法合成。NeRF-In 明显更加模糊,而 NeRF-In(单)往往难以处理靠近掩模边界边缘的细节(例如放大到方框中)。
5.结论
在本文中,我们提出了一种修复 NeRF 场景的新颖方法,该方法在给定单视图对象掩模的情况下,基于图像和几何先验来增强视点一致性。此外,我们提供了一种多视图分割方法,通过对不需要的对象(及其周围)使用一组稀疏像素级点击,并将它们转换为可以从新视图渲染的 3D 掩模,从而简化了注释过程。我们提供了实验来证明我们的分割和修复方法的有效性。我们工作的主要限制是语义一致的图像先验的假设,可能仅在纹理方面有所不同。最后,我们引入了一个数据集,它不仅解决了多视图修复缺乏挑战性基准的问题,而且我们相信它可以帮助这一新研究领域的未来进展。
参考资料
1.https://arxiv.org/abs/2211.12254
2.https://spinnerf3d.github.io/
—END—
高效学习3D视觉三部曲
第一步 加入行业交流群,保持技术的先进性
目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶方向,细分群包括:[工业方向]三维点云、结构光、机械臂、缺陷检测、三维测量、TOF、相机标定、综合群;[SLAM方向]多传感器融合、ORB-SLAM、激光SLAM、机器人导航、RTK|GPS|UWB等传感器交流群、SLAM综合讨论群;[自动驾驶方向]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器讨论群、多传感器标定、自动驾驶综合群等。[三维重建方向]NeRF、colmap、OpenMVS等。除了这些,还有求职、硬件选型、视觉产品落地等交流群。大家可以添加小助理微信: dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。

第二步 加入知识星球,问题及时得到解答
3.1 「3D视觉从入门到精通」技术星球
针对3D视觉领域的视频课程(三维重建、三维点云、结构光、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业、项目对接为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:「3D视觉从入门到精通」
学习3D视觉核心技术,扫描查看,3天内无条件退款
3.2 3D视觉岗求职星球
本星球:3D视觉岗求职星球 依托于公众号「3D视觉工坊」和「计算机视觉工坊」、「3DCV」,旨在发布3D视觉项目、3D视觉产品、3D视觉算法招聘信息,具体内容主要包括:
收集汇总并发布3D视觉领域优秀企业的最新招聘信息。
发布项目需求,包括2D、3D视觉、深度学习、VSLAM,自动驾驶、三维重建、结构光、机械臂位姿估计与抓取、光场重建、无人机、AR/VR等。
分享3D视觉算法岗的秋招、春招准备攻略,心得体会,内推机会、实习机会等,涉及计算机视觉、SLAM、深度学习、自动驾驶、大数据等方向。
星球内含有多家企业HR及猎头提供就业机会。群主和嘉宾既有21届/22届/23届参与招聘拿到算法offer(含有海康威视、阿里、美团、华为等大厂offer)。
发布3D视觉行业新科技产品,触及行业新动向。

第三步 系统学习3D视觉,对模块知识体系,深刻理解并运行
如果大家对3D视觉某一个细分方向想系统学习[从理论、代码到实战],推荐3D视觉精品课程学习网址:www.3dcver.com
科研论文写作:
基础课程:
[1]面向三维视觉算法的C++重要模块精讲:从零基础入门到进阶
[2]面向三维视觉的Linux嵌入式系统教程[理论+代码+实战]
工业3D视觉方向课程:
[1](第二期)从零搭建一套结构光3D重建系统[理论+源码+实践]
SLAM方向课程:
[1]深度剖析面向机器人领域的3D激光SLAM技术原理、代码与实战
[2]彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战
[3](第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化
[4]彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析
[5]彻底剖析室内、室外激光SLAM关键算法和实战(cartographer+LOAM+LIO-SAM)
视觉三维重建:
自动驾驶方向课程:
[1] 深度剖析面向自动驾驶领域的车载传感器空间同步(标定)
[2] 国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程
[4]面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
[5]如何将深度学习模型部署到实际工程中?(分类+检测+分割)
无人机:
[1] 零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]