SAR-NeRF精读

爆炸西蓝花

已于 2023-12-19 17:05:08 修改

阅读量1.6k

点赞数 30

文章标签：计算机视觉深度学习

于 2023-12-18 12:10:25 首次发布

本文链接：https://blog.csdn.net/m0_73970471/article/details/135056205

版权

SAR-NeRF: Neural Radiance Fields for Synthetic Aperture Radar Multi-View Representation

论文链接：[2307.05087] SAR-NeRF: Neural Radiance Fields for Synthetic Aperture Radar Multi-View Representation (arxiv.org)

摘要：SAR 图像对观测配置高度敏感，并且在不同视角下表现出显着变化，这使得表示和学习其各向异性特征具有挑战性。因此，深度学习方法在不同视角下的泛化能力通常很差。受神经辐射场（NeRF）概念的启发，本研究将SAR成像机制与神经网络相结合，提出了一种用于SAR图像生成的新型NeRF模型。遵循映射和投影原理，通过可微渲染方程将一组 SAR 图像隐式建模为 3D 成像空间中的衰减系数和散射强度的函数。然后构建SAR-NeRF来学习体素的衰减系数和散射强度的分布，其中分析导出3D体素SAR渲染方程的矢量化形式以及3D空间体素与2D视图射线网格之间的采样关系。通过对各种数据集的定量实验，我们全面评估了SAR-NeRF的多视图表示和泛化能力。此外，研究发现 SAR-NeRF 增强数据集可以在少样本学习设置下显着提高 SAR 目标分类性能，其中每类仅使用 12 个图像即可实现 91.6% 的 10 类分类准确率。

索引术语——合成孔径雷达、神经辐射场、深度学习、少样本学习、图像表示。

I. $\displaystyle$ $\newcommand{\rmnum}[1]{\romannumeral #1}$ 引言

合成孔径雷达(SAR)因其全天候、全天时观测能力而在地球遥感领域得到广泛应用。然而，SAR 图像解译的复杂性对 SAR 图像分类和目标识别中采用的基于深度学习的方法提出了挑战。这些方法的性能通常受到训练样本的多样性和规模的限制。此外，SAR 图像对观测配置表现出高敏感性，导致在不同条件下获取的图像之间存在很大差异。特别是，SAR 图像会随着视角的变化而发生显着变化，这使得有效地表征和学习其多视图特征具有挑战性。特别是，深度学习方法受到视角变化的显着影响，导致不同视角下的泛化能力较弱。这进一步凸显了基于 SAR 的深度学习解释方法样本可用性有限的问题。

为了解决SAR图像中少镜头学习和交叉视图泛化的挑战，目前有两种主要方法：迁移学习和新视图生成方法。迁移学习背后的主要思想是使用与 SAR 图像共享相似语义特征的其他现成数据对网络进行预训练，然后将其传输到 SAR 数据集。常见类型的预训练数据包括来自其他传感器的数据和模拟数据。然而，来自不同模式或来源的数据之间的差异可能会给网络中的特征传输带来挑战。例如，由于光学和 SAR 特征之间的根本不一致，预训练光学数据并将其传输到 SAR 图像可能会引入错误 [1]、[2]。

另一种方法是新视图样本生成方法，它利用生成模型从现有透视图像训练多视图表示模型。这些模型可以生成新的 SAR 图像，从而用不同角度的样本来扩充训练数据集。第一类方法涉及通过基于物理的模拟来训练网络，称为电磁模拟方法[3]，该方法通常受到模拟数据的多样性和真实性的限制。另一种类型是纯生成模型，包括生成对抗网络（GAN）或自动编码器，例如对抗自动编码器[4]。然而，这些方法仍然主要是数据驱动的，并没有将SAR成像的物理原理完全融入到网络中。因此，他们只能学习相邻角度之间的插值能力，实现随着视角变化的平滑过渡效果。这些方法在解决上述挑战方面的有效性是有限的。

在光学图像领域，NeRF（神经辐射场）[5]模型引入了一种基于隐式表示的方法。通过将渲染光学 3D 体素的物理模型纳入神经网络，NeRF 模型实现了从多视图观察图像中对 3D 体素的密集重建。此外，利用成像模型投影，NeRF模型可以成功生成新视角的图像，有效解决光学图像领域的多视角图像生成问题。 NeRF 模型在这方面展示了令人印象深刻的结果。

本文提出了一种新的SAR-NeRF模型，该模型基于SAR的基本散射和成像机制。它使用映射和投影算法（MPA）[6]构建了用于 SAR 图像体素渲染的神经网络模型。成像空间被划分为体素，然后从不同视角通过射线网格对其进行采样，从而能够学习多视图 SAR 图像表示。使用渲染的合成数据和测量的 MSTAR 数据进行了广泛的实验，并进行了定量评估。综上所述，本文的主要贡献可概括如下：

构建SAR神经辐射场：SAR神经辐射场方法是利用体素渲染技术和视点采样点变换方程开发的。该方法能够利用多视点SAR观测数据来学习采样空间中的衰减系数和散射强度的分布。
介绍SAR图像体素渲染和视点采样点变换方程：论文提出了一种易于与神经网络集成的SAR图像体素渲染方法。基于观察到的视点生成体素分布有效地将成像空间划分为体素。
实现了SAR图像的多视点表示和生成，并基于多视点SAR图像重建目标几何模型。进行了广泛的演示和评估，涉及广泛的数据集和大量的实验。完成了多视SAR图像生成的验证，展示了基于渲染数据提取三维模型的能力。

本文其余部分的组织如下：第二部分简要介绍了SAR图像模拟方法、生成对抗网络以及相关工作的神经辐射场。第三节基于SAR成像的映射和投影原理，构建了SAR图像体素渲染的神经网络模型。还提出了基于成像空间中观察到的视点的体素划分方法。在第四节中，进行了使用各种数据集生成多视图图像的实验。设计了定量评价指标，实现了多视SAR观测图像几何模型的提取。第五节总结了本文，并提供了结论性意见。

II.相关作品

A.基于物理的SAR图像模拟方法

基于物理的SAR图像模拟方法通常用于模拟真实环境，可以解决实际场景中遇到的挑战，从而缓解SAR图像观测样本有限的问题。这些方法大致可以分为两类：相干回波模拟方法和非相干图像生成方法。

关于相干回波模拟方法，Xu 等人提出了双向射线追踪（BART）技术，用于计算具有粗糙表面的大型三维目标的雷达截面（RCS）。该方法可以有效计算涉及波涛汹涌的海面上大型 3D 船舶的复杂散射场景的 RCS，从而能够对单基地和双基地配置的 RCS 进行数值计算 [7]。Yue等人提出了一种改进的广义高斯相关（GGCS）相干模型来生成相干 SAR 图像。他们引入了对散射体数量限制的调整和高斯散射分布参数的灵活选择，为SAR图像表示提供了更通用和更现实的方法[8]。Zhang等人提出了一种基于快速波束形成算法（FBAM）和高斯光学物理光学（GO-PO）技术的方法。该方法计算复杂船舶目标在粗糙海面的复杂散射，并将结果与真实船舶目标进行比较，验证了该方法的有效性[9]。

对于非相干图像生成方法，Xu 等人提出了用于模拟复杂地形场景的极化SAR成像的Mapping Projection方法。推导了复杂场景中极化散射SAR成像的表达式，并成功模拟了各种配置下的SAR成像[6]。Fu等人引入了可微分渲染器，可以实现从 3D 模型到 2D 图像的正向渲染以及从 2D 图像到 3D 模型的逆向重建。他们证明了逆向成像方法用于 SAR 图像生成的可行性[10]。巴尔兹等人。开发了基于GPU处理的实时SAR模拟系统。他们利用光栅化方法进行实时单次反射模拟，显着提高了SAR图像模拟的速度[11]。

请注意，该领域有大量工作，但仅介绍了几个示例。

B. 生成对抗网络

在SAR图像生成领域，生成对抗网络（GAN）已被广泛应用于解决SAR图像中生成新方位角的问题。Ding等人。提出了一种姿态生成方法，利用方位角插值生成具有特定方位角的线性合成SAR图像[12]。随后，许多研究利用 GAN 的生成能力来增强 SAR 图像的数据 [13]-[16]。Liu等人使用CycleGAN完成SAR飞机目标的角度分析[17]。与此同时，Zhang等人将方位辨别模型纳入改进的 DCGAN 中，以线性合成具有不同方位角的 SAR 图像 [18]。Oh等人提出PeaceGAN来估计SAR目标图像的姿态角和目标类别信息[19]]。尽管这些方法可以通过合成样本提高目标识别的分类精度，但生成的图像与真实图像之间存在显着差异。此外，一些工作还采用其他深度神经网络来模拟 SAR 图像。Guo等人利用基于差分向量的深度特征变换方法来生成考虑标签、方位角和目标特征的真实样本[20]。Song等人引入了图像生成网络的AAE，在有限样本条件下显着提高了识别精度[4]。Dong等人采用改进的循环神经网络对序列方位角目标图像进行建模，以预测丢失的方位角 SAR 图像[21]。然而，上述方法仅从使用神经网络的图像表示的角度来实现SAR方位角生成，而没有考虑SAR系统的实际散射机制和图像投影几何结构。图沙尔等人。提出了一种基于训练数据中可用图像的稀疏建模的姿态合成方法，利用与视角相关的散射兴趣中心的各向异性散射行为来模拟附近的姿态[22]。然而，该方法无法生成不同俯仰角下的SAR图像，并且需要大量的人工标注成本。

C. 神经辐射场

将深度学习与相关数据先验相结合来解决相关问题最近引发了隐式神经表示（INR）的研究趋势[23]。神经辐射场 (NeRF) 将 INR 应用于光学图像中新颖的视图合成任务，并代表了一种以神经体积渲染为中心的数据驱动方法 [5]。 NeRF的训练过程涉及两个主要步骤：场景编码和渲染。在场景编码阶段，NeRF 使用一组输入图像和相应的相机参数来学习场景中每个点的位置和颜色。它将每个点表示为一个潜在向量，并采用神经网络将输入图像和相机参数映射到这些向量。在渲染阶段，NeRF 利用训练好的模型从新的视点生成图像。它沿每条射线对点进行采样，并使用场景编码网络计算每个点的颜色和密度，最终生成最终图像。 NeRF 的一个关键优势是它能够生成逼真的合成图像，包括丰富的几何细节和灯光效果。 NeRF通过将传感器观察的物理原理融入神经网络，实现了自然观察场景的3D内容的呈现和重新编辑，为few-shot方法提供了新的方向。