SAR-NeRF: Neural Radiance Fields for Synthetic Aperture Radar Multi-View Representation
摘要:SAR 图像对观测配置高度敏感,并且在不同视角下表现出显着变化,这使得表示和学习其各向异性特征具有挑战性。因此,深度学习方法在不同视角下的泛化能力通常很差。受神经辐射场(NeRF)概念的启发,本研究将SAR成像机制与神经网络相结合,提出了一种用于SAR图像生成的新型NeRF模型。遵循映射和投影原理,通过可微渲染方程将一组 SAR 图像隐式建模为 3D 成像空间中的衰减系数和散射强度的函数。然后构建SAR-NeRF来学习体素的衰减系数和散射强度的分布,其中分析导出3D体素SAR渲染方程的矢量化形式以及3D空间体素与2D视图射线网格之间的采样关系。通过对各种数据集的定量实验,我们全面评估了SAR-NeRF的多视图表示和泛化能力。此外,研究发现 SAR-NeRF 增强数据集可以在少样本学习设置下显着提高 SAR 目标分类性能,其中每类仅使用 12 个图像即可实现 91.6% 的 10 类分类准确率。
索引术语——合成孔径雷达、神经辐射场、深度学习、少样本学习、图像表示。
I.![\displaystyle](https://latex.csdn.net/eq?%5Cdisplaystyle)
引言
合成孔径雷达(SAR)因其全天候、全天时观测能力而在地球遥感领域得到广泛应用。然而,SAR 图像解译的复杂性对 SAR 图像分类和目标识别中采用的基于深度学习的方法提出了挑战。这些方法的性能通常受到训练样本的多样性和规模的限制。此外,SAR 图像对观测配置表现出高敏感性,导致在不同条件下获取的图像之间存在很大差异。特别是,SAR 图像会随着视角的变化而发生显着变化,这使得有效地表征和学习其多视图特征具有挑战性。特别是,深度学习方法受到视角变化的显着影响,导致不同视角下的泛化能力较弱。这进一步凸显了基于 SAR 的深度学习解释方法样本可用性有限的问题。
为了解决SAR图像中少镜头学习和交叉视图泛化的挑战,目前有两种主要方法:迁移学习和新视图生成方法。迁移学习背后的主要思想是使用与 SAR 图像共享相似语义特征的其他现成数据对网络进行预训练,然后将其传输到 SAR 数据集。常见类型的预训练数据包括来自其他传感器的数据和模拟数据。然而,来自不同模式或来源的数据之间的差异可能会给网络中的特征传输带来挑战。例如,由于光学和 SAR 特征之间的根本不一致,预训练光学数据并将其传输到 SAR 图像可能会引入错误 [1]、[2]。
另一种方法是新视图样本生成方法,它利用生成模型从现有透视图像训练多视图表示模型。这些模型可以生成新的 SAR 图像,从而用不同角度的样本来扩充训练数据集。第一类方法涉及通过基于物理的模拟来训练网络,称为电磁模拟方法[3],该方法通常受到模拟数据的多样性和真实性的限制。另一种类型是纯生成模型,包括生成对抗网络(GAN)或自动编码器,例如对抗自动编码器[4]。然而,这些方法仍然主要是数据驱动的,并没有将SAR成像的物理原理完全融入到网络中。因此,他们只能学习相邻角度之间的插值能力,实现随着视角变化的平滑过渡效果。这些方法在解决上述挑战方面的有效性是有限的。
在光学图像领域,NeRF(神经辐射场)[5]模型引入了一种基于隐式表示的方法。通过将渲染光学 3D 体素的物理模型纳入神经网络,NeRF 模型实现了从多视图观察图像中对 3D 体素的密集重建。此外,利用成像模型投影,NeRF模型可以成功生成新视角的图像,有效解决光学图像领域的多视角图像生成问题。 NeRF 模型在这方面展示了令人印象深刻的结果。
本文提出了一种新的SAR-NeRF模型,该模型基于SAR的基本散射和成像机制。它使用映射和投影算法(MPA)[6]构建了用于 SAR 图像体素渲染的神经网络模型。成像空间被划分为体素,然后从不同视角通过射线网格对其进行采样,从而能够学习多视图 SAR 图像表示。使用渲染的合成数据和测量的 MSTAR 数据进行了广泛的实验,并进行了定量评估。综上所述,本文的主要贡献可概括如下:
- 构建SAR神经辐射场:SAR神经辐射场方法是利用体素渲染技术和视点采样点变换方程开发的。该方法能够利用多视点SAR观测数据来学习采样空间中的衰减系数和散射强度的分布。
- 介绍SAR图像体素渲染和视点采样点变换方程:论文提出了一种易于与神经网络集成的SAR图像体素渲染方法。基于观察到的视点生成体素分布有效地将成像空间划分为体素。
- 实现了SAR图像的多视点表示和生成,并基于多视点SAR图像重建目标几何模型。进行了广泛的演示和评估,涉及广泛的数据集和大量的实验。完成了多视SAR图像生成的验证,展示了基于渲染数据提取三维模型的能力。
本文其余部分的组织如下:第二部分简要介绍了SAR图像模拟方法、生成对抗网络以及相关工作的神经辐射场。第三节基于SAR成像的映射和投影原理,构建了SAR图像体素渲染的神经网络模型。还提出了基于成像空间中观察到的视点的体素划分方法。在第四节中,进行了使用各种数据集生成多视图图像的实验。设计了定量评价指标,实现了多视SAR观测图像几何模型的提取。第五节总结了本文,并提供了结论性意见。
II.相关作品
A.基于物理的SAR图像模拟方法
基于物理的SAR图像模拟方法通常用于模拟真实环境,可以解决实际场景中遇到的挑战,从而缓解SAR图像观测样本有限的问题。这些方法大致可以分为两类:相干回波模拟方法和非相干图像生成方法。
关于相干回波模拟方法,Xu 等人提出了双向射线追踪(BART)技术,用于计算具有粗糙表面的大型三维目标的雷达截面(RCS)。该方法可以有效计算涉及波涛汹涌的海面上大型 3D 船舶的复杂散射场景的 RCS,从而能够对单基地和双基地配置的 RCS 进行数值计算 [7]。Yue等人提出了一种改进的广义高斯相关(GGCS)相干模型来生成相干 SAR 图像。他们引入了对散射体数量限制的调整和高斯散射分布参数的灵活选择,为SAR图像表示提供了更通用和更现实的方法[8]。Zhang等人提出了一种基于快速波束形成算法(FBAM)和高斯光学物理光学(GO-PO)技术的方法。该方法计算复杂船舶目标在粗糙海面的复杂散射,并将结果与真实船舶目标进行比较,验证了该方法的有效性[9]。
对于非相干图像生成方法,Xu 等人提出了用于模拟复杂地形场景的极化SAR成像的Mapping Projection方法。推导了复杂场景中极化散射SAR成像的表达式,并成功模拟了各种配置下的SAR成像[6]。Fu等人引入了可微分渲染器,可以实现从 3D 模型到 2D 图像的正向渲染以及从 2D 图像到 3D 模型的逆向重建。他们证明了逆向成像方法用于 SAR 图像生成的可行性[10]。巴尔兹等人。开发了基于GPU处理的实时SAR模拟系统。他们利用光栅化方法进行实时单次反射模拟,显着提高了SAR图像模拟的速度[11]。
请注意,该领域有大量工作,但仅介绍了几个示例。
B. 生成对抗网络
在SAR图像生成领域,生成对抗网络(GAN)已被广泛应用于解决SAR图像中生成新方位角的问题。Ding等人。提出了一种姿态生成方法,利用方位角插值生成具有特定方位角的线性合成SAR图像[12]。随后,许多研究利用 GAN 的生成能力来增强 SAR 图像的数据 [13]-[16]。Liu等人使用CycleGAN完成SAR飞机目标的角度分析[17]。与此同时,Zhang等人将方位辨别模型纳入改进的 DCGAN 中,以线性合成具有不同方位角的 SAR 图像 [18]。Oh等人提出PeaceGAN来估计SAR目标图像的姿态角和目标类别信息[19]]。尽管这些方法可以通过合成样本提高目标识别的分类精度,但生成的图像与真实图像之间存在显着差异。此外,一些工作还采用其他深度神经网络来模拟 SAR 图像。Guo等人利用基于差分向量的深度特征变换方法来生成考虑标签、方位角和目标特征的真实样本[20]。Song等人引入了图像生成网络的AAE,在有限样本条件下显着提高了识别精度[4]。Dong等人采用改进的循环神经网络对序列方位角目标图像进行建模,以预测丢失的方位角 SAR 图像[21]。然而,上述方法仅从使用神经网络的图像表示的角度来实现SAR方位角生成,而没有考虑SAR系统的实际散射机制和图像投影几何结构。图沙尔等人。提出了一种基于训练数据中可用图像的稀疏建模的姿态合成方法,利用与视角相关的散射兴趣中心的各向异性散射行为来模拟附近的姿态[22]。然而,该方法无法生成不同俯仰角下的SAR图像,并且需要大量的人工标注成本。
C. 神经辐射场
将深度学习与相关数据先验相结合来解决相关问题最近引发了隐式神经表示(INR)的研究趋势[23]。神经辐射场 (NeRF) 将 INR 应用于光学图像中新颖的视图合成任务,并代表了一种以神经体积渲染为中心的数据驱动方法 [5]。 NeRF的训练过程涉及两个主要步骤:场景编码和渲染。在场景编码阶段,NeRF 使用一组输入图像和相应的相机参数来学习场景中每个点的位置和颜色。它将每个点表示为一个潜在向量,并采用神经网络将输入图像和相机参数映射到这些向量。在渲染阶段,NeRF 利用训练好的模型从新的视点生成图像。它沿每条射线对点进行采样,并使用场景编码网络计算每个点的颜色和密度,最终生成最终图像。 NeRF 的一个关键优势是它能够生成逼真的合成图像,包括丰富的几何细节和灯光效果。 NeRF通过将传感器观察的物理原理融入神经网络,实现了自然观察场景的3D内容的呈现和重新编辑,为few-shot方法提供了新的方向。
III.SAR 神经辐射场
基于SAR成像和测绘投影原理[6],本文首先构建了一种称为SAR神经辐射场(SAR-NeRF)的前向生成模型。该模型将SAR图像的视点信息(如雷达高度、方位角、俯仰角)转换为3D体素采样点信息。然后将该采样点信息输入到 MLP 编码器中,以估计相应体素的衰减系数和散射强度。随后,采用 MPA-SAR 体素渲染方程生成最终的 SAR 图像。 SAR神经辐射场的流程图如图1所示。本节我们将讨论四个方面:SAR成像的映射和投影原理、采样空间映射关系的构建、SAR图像体素的渲染和学习辐射场。
![](https://img-blog.csdnimg.cn/direct/ad92509b3d3747b78491a39ef1fe800e.png)
A. 基于MPA的SAR 3D体素渲染方程
SAR通过脉冲压缩和合成孔径技术实现二维高分辨率成像,如图2所示。平台沿轴方向飞行高度
,不断向地面发射信号并接收地面目标的散射回波。在整个过程中,雷达天线保持固定视点(通常是侧面视图)。设
表示照射区域的中心点,
表示
点与雷达飞行路径之间的倾斜范围。
和
分别表示垂直和方位波束宽度,
表示成像区域的幅宽,
表示有效合成孔径长度。
![](https://img-blog.csdnimg.cn/direct/9dc8ab48493f49398859e7406d7c7ef0.png)
从图2可以看出,SAR图像的照射区域是由雷达天线的实际孔径和辐射方向图决定的。雷达沿方位角方向移动时,不断接收来自目标和场景的回波,并通过信号处理进行成像。侧视带状图成像的几何关系由轨道高度、入射角、方位角等参数决定。由于雷达距离目标较远,当雷达沿方位方向移动时,同一目标的入射角变化可以忽略不计。因此,我们假设在不同雷达位置收集的同一目标的散射贡献是相同的。因此,在成像模拟中,我们分别计算每个方位角分辨率区间内每一行的贡献。映射投影示意图如图3所示。
![](https://img-blog.csdnimg.cn/direct/9d408c0573464c47b48d05526436ab42.png)
以方位角方向的单个截面为入射面,建立以雷达位置为原点的极坐标系,其中
表示雷达的入射角,
表示倾斜范围。通过确定雷达接收到的脉冲回波的采样范围和入射角变化范围,可以定义雷达的成像空间为
,
。现在,我们假设成像空间中的单个网格单元
对应于一个体素
,其尺寸分别为
,
,
。根据辐射传输理论,当入射波
穿过单个体素时,单位面积的后向散射强度,记为
,可表示为如下[6]:
和
表示前向和后向累积的衰减系数。相位函数
表示体素的散射系数,
和
分别表示前向和后向的消光系数。散射单元的散射强度与有效穿透面积的乘积给出了散射能量的贡献,如下式所示:
通过代入等式。 (1)、(2) 和 (3) 代入等式。 (4) 可以得到SAR图像中单个像素的散射能量,如下式所示:
在自然环境中,物体的随机分布可能非常复杂,这使得导出方程(5)中的相函数和消光系数的解析解变得具有挑战性。因此,有必要对方程(5)进行离散化以便于其计算处理。考虑到雷达和目标之间的距离很远,我们可以使用变量来代替俯仰角,其中
。因此,我们可以通过定义
,
,
将成像空间
划分为网格。该离散化过程产生方程(5)的离散形式,如方程(6)所示。坐标系中的每个网格点对应于成像空间内的一个体素。
变量和
对应SAR图像中像素点的网格索引,
表示扫描角度的样本数,利用式(6)建立了基于映射和投影的原理。
B. SAR 图像3D 体素渲染方程矢量化
在上一节中,我们基于MPA 推导了三维体素渲染方程[6]。然而,这个方程是在网格坐标系中建立的,其中每个体素的形状和大小都有变化,这使得与神经网络集成具有挑战性。因此,在本节中,我们通过使用体素的中心坐标来表示它们,进一步优化体素渲染方程(方程(6))。假设SAR图像的尺寸为,扫描角度的样本数为
。使用上一节中的体素划分方法,我们将采样空间划分为
体素,其中第
体素的中心坐标表示为
,该点的衰减系数表示为
,沿投影方向的散射强度表示为
。据此,我们可以得到简化的SAR三维体素渲染方程,其中第
个像素单元的散射强度可以表示为
这里为了简化,我们选择忽略极化特征(即假设前向损失等于后向损失),方程(7)可以写成如下:
为了简洁起见,本文使用矩阵运算来表示式(8)中的累积乘法运算。假设,
表示
时
的矩阵集合。我们可以将
写成矩阵形式如下:
在这种情况下,我们可以将分解为散射强度矩阵和消光系数矩阵的乘积:
,其中
和
定义如下:
函数用于对矩阵中的每个元素进行指数运算,
表示与
大小相同的上三角矩阵,
定义为如下:
C. 通过 2D 射线阵列对 3D 体素进行采样
在上一节中,我们推导了依赖于体素中心坐标和投影方向的三维体素渲染方程。因此,我们可以通过获取所有体素的中心坐标和成像空间中的投影方向,利用渲染方程计算SAR图像。在本节中,我们将利用方位角、轨道高度和俯仰角等SAR成像参数来设计一种使用二维射线对三维体素进行采样的方法。
在SAR神经辐射场中,考虑到每幅SAR图像中雷达与目标的相对位置不同,需要将不同观测角度的三维体素放置在同一坐标系中。在本研究中,我们将成像目标的中心定义为世界坐标系中的原点
。雷达的位置(表示为
)已知,其坐标为
。雷达运动方向为
,斜距方向为
,斜离天底方向为
。由此,可以建立雷达观测的局部坐标系,记为
,其中
,
和
分别表示沿
、
和
轴的单位向量。图4给出了坐标系的定义,其中
和
分别表示入射角和方位角。
![](https://img-blog.csdnimg.cn/direct/fa4a09f5508947de96c6de8b2060cecf.png)
与上节一致,假设雷达入射角、方位角方向和斜距方向的采样点数分别为、
和
。相应的采样间隔为
、
和
。以
方向第
个采样点单元为射线源点,其坐标可写为:
细胞会发射射线,
对应的单位向量
表示为:
式(14)中,表示雷达的俯仰角,
表示绕
旋转角度
对应的仿射变换,由下式给出:
第条射线的方向可以表示为:
结合式(13)和式(16),我们可以得到第个采样点的表示,其中心坐标为:
利用仿射变换,我们可以将不同观测角度的雷达坐标系变换到同一世界坐标系中。世界坐标系与雷达坐标系之间的变换方程如下:
其中和
分别表示同一点在世界坐标系和雷达坐标系中的坐标。
表示雷达坐标系原点在世界坐标系中的坐标。
在此基础上,推导出雷达网格坐标索引与雷达坐标系的对应关系。假设方位角的中间位置对应于网格坐标系中的原点。因此,每个网格坐标
的空间位置可以表示为:
通过使用方程式。根据式(20)、式(21)、式(22),我们可以得到网格索引对应的坐标如下:
其中表示范围方向的最小值。将
、
,和式(22)代入式(6),即可得到坐标系下SAR图像单个像素的散射能量表达式。
D. SAR 神经辐射场
![](https://img-blog.csdnimg.cn/direct/d6347c1f012c46ac81292c975c32c5db.png)
在光学成像领域,NeRF模型引入了隐式表示方法,将体积渲染的物理模型集成到神经网络中。这使得能够从多视图观察图像中密集重建 3D 体素,并使用成像模型进一步合成新视图图像。本文提出的SAR-NeRF小说就是从这个想法中汲取灵感的。它使用神经网络建立SAR 3D体素的隐式表示,编码衰减系数和散射强度
在空间中的分布。 SAR-NeRF如图5所示。衰减系数
与体素的位置有关。如果体素位于目标内部,
相对较小,而如果体素位于目标外部,则
趋于接近 0。另一方面,散射强度
不仅取决于体素的位置,还取决于射线的方向。如果体素与射线的角度较小,则其散射强度较高。
和
的表示如下:
其中和
表示采样点的位置和方向,
如下:
此外,本文还对结构的激活函数进行了量身定制的设计。让我们考虑放置在目标内部和外部的两个采样点,分别表示为
和
。显然,
位于目标内部,这意味着
时不可避免的衰减。同样,
位于目标外部,表明
时不存在衰减。因此,可以轻松推断出
。同样,对于散射强度
,由于
存在于目标内部,因此它无疑对散射能量有贡献。相反,位于目标之外的
不可避免地对散射能量没有任何贡献。让我们假设 SAR-NeRF 的输出在激活函数之前被表示为
和
。考虑到这一点,我们可以提供以下表达式。
其中,表示空间中采样点的坐标,
表示目标所占据的区域。根据式(28),我们可以得出SAR-NeRF的最终输出如下:
由于 SAR 图像是体素密度和散射强度的函数,因此我们可以通过最小化预测图像 和地面真实图像
之间的误差来拟合 MLP,其可以表示为:
通过优化网络的激活函数,可以显着提高网络的收敛速度。这种优化还解决了背景散射能量为零时训练 SAR-NeRF 的挑战。此外,该激活函数增强了目标内部和外部衰减系数之间的区分,有利于几何模型的提取。
E. 3D几何模型重建
SAR-NeRF完成了采样空间内衰减系数和散射强度分布的预测。然而,衰减系数与目标在空间中的体素分布之间存在很强的相关性。如上一节所述,如果体素位于目标内部,则其衰减系数 大于零,而如果体素位于目标外部,则
等于 0。利用这个概念,我们可以利用SAR-NeRF重建目标的三维几何模型。首先,基于先验知识,确定SAR-NeRF的神经辐射范围,称为神经辐射空间。该空间中的体素分布是通过对神经辐射空间内采集的样本进行平均而获得的。最后将体素信息输入到SAR-NeRF中,得到衰减系数在该空间的分布。删除
等于0的点,得到目标的三维体素模型。具体流程如图6所示。
![](https://img-blog.csdnimg.cn/direct/d85a205ddb6c43e281a795b1f6c16c71.png)
IV.实验
本研究的实验分为三个主要部分:前向渲染实验、渲染图像生成多视图图像以及真实SAR图像生成多视图图像。在前向渲染测试中,验证了SAR体素渲染方法的有效性。从渲染图像生成多视图图像的实验证明了SAR神经辐射场(SAR-NeRF)在生成多视图图像任务中的可靠性以及学习目标几何信息的能力。真实SAR图像生成多视点图像的实验初步验证了SARNeRF在真实数据上的有效性。