诸如 Stable Diffusion 之类的知名生成式 AI 模型大多使用 512x512 图像进行预训练。然而,雷达图像 (SAR) 通常尺寸更大,并且包含精确分析所必需的高分辨率细节。我们如何才能生成如此大的图像,同时又能充分利用 Stable Diffusion 的潜力,而无需从头开始?
我们提出并比较了三种不同的方法,这些方法基于 ONERA 机载影像中约 5,000 张带标签的雷达图像(缩略图),分辨率分别为每像素 160 厘米、80 厘米和 40 厘米。这些图像使用 BLIP 视觉模型进行处理,以创建 SAR-文本对。
第一种方法:级联潜在扩散架构
我们的模型采用级联潜伏期扩散过程,将文本转化为高分辨率图像。该模型会生成并逐步提升图像分辨率,细节级别从低分辨率(160 厘米到 512x512)、中分辨率(80 厘米到 1024x1024)到高分辨率(40 厘米到 2048x2048)。模型学习会在每个阶段使用 SAR 图像和相应的说明进行改进,确保在不同分辨率下都能清晰地呈现 SAR 图像。
在推理过程中,我们通过这种级联架构生成 SAR 图像。首先,我们利用稳定扩散微调模型,在分辨率为 160 厘米(SD160)的 SAR 图像上,根据文本提示创建基本潜像向量。然后,该向量通过 VAE 解码器进行放大,并转换为 1024x1024 的图像。为了确保文本保真度和上下文准确性,我们使用 ControlNet 模型,这是一个专门用于将图像特征与提示中描述的特征对齐的模型。接下来,使用在 80 厘米分辨率(SD80)下进行微调的模型进一步细化图像,将分辨率提升至 2048x2048,并添加更精细的细节。最后,使用在 40 厘米分辨率(SD40)下训练的模型和 ControlNet 模型完成该过程,最终获得最高的质量和分辨率。这种多分辨率方法可以生成忠实反映文本描述的图像,其中 ControlNet 模型确保了不同尺度下的一致性。
此外,该方法还可以有效提高图像分辨率。
稳定扩散 XL (SDXL)
稳定扩散 XL (SDXL) 模型采用的 UNet 架构比稳定扩散 SD1.5 模型大三倍,这主要归功于其额外的注意力模块和扩展的交叉注意力上下文。此扩展由第二个文本编码器支持,增强了 SDXL 根据输入文本生成更大、更详细、上下文更准确的图像的能力。由于硬件限制,该模型并未进行完全微调;而是采用了低秩自适应 (LoRA) 学习方法来实现一定程度的自适应性。
虽然结果证明了该模型能够直接生成大型逼真的图像,但其纹理(特别是 SAR 图像中常见的颗粒状斑点)似乎与训练数据不太一致。进一步的研究将涉及对整个模型进行训练,以评估这些限制是源于 LoRA 方法、基础模型本身还是训练数据集的限制。
超越绘画
外绘是修复的一种变体,它会根据提示修改部分噪声的清晰图像,使其与周围内容无缝融合,重点在于扩展图像的边界。由于其外推特性,该过程更加复杂,图像内容是在现有边界之外生成的。输入图像被放置在更大的随机噪声蒙版上,以扩展其尺寸。示例展示了该方法能够有效地将 1024x1024 的图像水平扩展至 1024x2048 像素。然而,它缺乏其他方法所见的一致性,这表明需要专门的修复模型来改进结果。
在我们的示例中,将初始的 1024x1024 像素图像水平扩展,以创建 1024x2048 像素的图像。使用的条件提示是“城市、建筑物、道路”。这些示例证实了我们方法的有效性,凸显了其能够扩展图像,而不会在原始图像与其扩展图像的连接处引入可见的伪影。然而,最终图像的整体一致性不如其他方法所达到的水平。开发专门的修复模型对于推进这一概念至关重要。
未来工作
本研究使用的数据集规模较小,不足以满足所需的扩展要求,因此需要的数据量远远超出现有规模。自本研究以来,我们一直致力于将数据集规模扩大到 10 万张图像。