CVPR 2025 | PiSA-SR：像素级和语义级可调的超分辨率

最新推荐文章于 2025-03-20 15:38:22 发布

Amusi（CVer）

最新推荐文章于 2025-03-20 15:38:22 发布

阅读量383

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247617068&idx=2&sn=f6df4c6ab8218afabd8510496cfb9fb7&chksm=f847f87828ad3fd79ed3bda45b0ab92f2b88fecb3f1bf07c5456ee010fafdeb2730e1af05c85&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【超分辨率】投稿交流群

添加微信号：CVer2233，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：煤矿工厂

来源：CVPR 2025
作者：Lingchen Sun, Rongyuan Wu, Zhiyuan Ma, Shuaizheng Liu, Qiaosi Yi, Lei Zhang
论文题目：Pixel-level and Semantic-level Adjustable Super-resolution: A Dual-LoRA Approach
论文链接：https://arxiv.org/pdf/2412.03017
内容整理：汪奕文
基于扩散先验的方法在真实场景图像超分辨率（SR）中表现出色。然而，大多数现有方法在训练过程中将像素级和语义级的超分辨率目标混为一体，难以在像素级保真度和感知质量之间找到平衡。同时，由于用户对超分辨率结果的偏好各不相同，因此迫切需要开发一种可调节的超分辨率模型，该模型能够在推理过程中根据不同的保真度和感知质量偏好进行调整，并且无需重新训练。我们提出了一种像素级和语义级可调节超分辨率模型（PiSA-SR），通过在预训练的 SD 模型上学习两个 LoRA 模块，实现了改进且可调节的超分辨率结果。我们首先将基于 SD 的超分辨率问题形式化为学习低质量输入与高质量输出之间的残差，然后证明学习目标可以被解耦为两个独立的 LoRA 权重空间：一个通过 L2 损失进行像素级回归，另一个通过 LPIPS 和分类器得分蒸馏损失从预训练的分类和 SD 模型中提取语义信息。在默认设置下，PiSA-SR 可在单步扩散中完成超分辨率任务，在质量和效率上均达到领先水平。通过在推理过程中引入两个可调节的引导因子，用于分别控制像素级保真度和语义级细节的强度，PiSA-SR 能够根据用户偏好灵活生成超分辨率结果，而无需重新训练。

引言

单帧图像超分辨率（SR）旨在从其低质量（LQ）版本（受到多种退化的影响，如噪声、模糊、降采样等）重建出高质量（HQ）图像。由于在重建细节时存在固有的不确定性，SR 是一个具有挑战性的病态问题，因此开发了多种深度神经网络来解决这一问题。

像素级回归损失（如和损失）对保持 SR 输出的像素级保真度至关重要，但它们往往会导致过于平滑的细节。结构相似性指数（SSIM）和感知损失可以缓解这一问题。具体来说，SSIM 用于衡量 SR 图像与真实图像（GT）之间的局部结构相似性，而感知损失通过预训练的分类模型提取语义特征，以提高 SR 结果的感知质量。与 SSIM 和感知损失相比，生成对抗网络（GAN）相关的对抗损失提供了一种更有效的解决方案，将 SR 图像与自然图像分布对齐，从而生成感知上更加真实的 SR 结果。然而，对抗训练的不稳定性以及 GAN 模型在表征自然图像空间能力上的局限性，同时引入了许多不良的视觉伪影。

最近开发的 SD 模型是基于文本到图像（T2I）任务预训练的，它们展示了出色的图像生成能力和强大的语义理解能力，已成功应用于许多下游任务，包括单帧图像超分辨率（SR）。基于 SD 的 SR 方法在感知真实感方面优于基于 GAN 的方法，但通常在扩散过程中将像素级保真度和语义级增强目标纠缠在一起，这在优化中可能是相互矛盾的，导致它们在最终的 SR 输出中难以平衡像素级保真度和语义级感知。

尽管一些方法设计为在语义级增强之前执行像素级恢复（即按顺序方式进行），但后续阶段的性能在很大程度上依赖于前一阶段的准确性。除了像素级保真度与语义级细节之间的权衡外，实际应用中用户对 SR 结果的偏好往往不同：有些人优先考虑内容保真度，而另一些人则更倾向于语义丰富的细节。这种用户偏好上的多样性凸显了开发一种更灵活的 SR 方法的重要性和需求，以在推理过程中满足个性化的偏好。

尽管一些现有方法探索了交互式 SR 方法来控制恢复强度，但这些方法主要局限于退化级别的调整（如噪声和模糊），输出结果通常仅表现为更清晰或更平滑。而一些基于多步 SD 的 SR 方法通过在每个采样步骤中使用基于引导的策略实现不同程度的语义丰富性，但这些方法在精确控制和效率方面往往表现不佳。

在本文中，我们提出了一种像素级和语义级可调节超分辨率模型（Pixel-level and Semantic-level Adjustable Super-Resolution，简称 PiSA-SR），该模型利用预训练的 SD 模型，将像素级增强和语义级增强分离到两个独立的低秩适配器（Low-Rank Adapter, LoRA）权重空间中，为满足用户的多样化需求提供了一种高效的超分辨率解决方案。我们首先将基于 SD 的 SR 问题形式化为学习 LQ 和 HQ 潜在特征之间的残差。这种形式化不仅加速了模型训练的收敛，还能在模型输出上引入比例因子，从而在推理阶段无需重新训练即可灵活调整 SR 结果。

接着，我们通过引入两个专门用于像素级回归和语义级增强的独立 LoRA 模块对预训练的 SD 模型进行微调。具体来说，像素级回归的 LoRA 模块使用损失，而语义级增强的 LoRA 模块使用 LPIPS 损失和分类器得分蒸馏（CSD）损失，充分利用了预训练 VGG 分类模型和 SD 图像生成模型中编码的语义先验。我们提出了一种解耦训练方法，用于分别训练像素级和语义级 LoRA，有效提升语义信息的同时保持像素级保真度。

实验结果表明，PiSA-SR 不仅在 SR 性能上优于现有基于 SD 的模型，还为用户提供了一种根据个人偏好调整 SR 风格的有效方式。例如，在图 1 中，横轴和纵轴分别表示语义级和像素级增强的因子。增加像素级增强的因子可以有效去除噪声和压缩伪影，但过高的像素级增强因子会使图像细节过于平滑。相反，增加语义级增强的因子能够丰富图像细节，使图像感知上更真实。然而，过高的语义增强因子会引入过度增强的视觉伪影。PiSA-SR 提供了灵活的调整能力，允许用户根据个人需求同时调整像素级和语义级增强因子。

图1

方法

本节首先将基于 SD 的超分辨率（SR）问题形式化为残差学习模型，然后介绍了双 LoRA 方法，用于解耦像素级回归和语义级增强的学习目标。最后，提出了像素和语义引导策略，以实现灵活的 SR 结果生成。在后续描述中，我们用和表示低质量（LQ）图像和高质量（HQ）图像，分别用和表示它们对应的 latent code。和分别为变分自编码器（VAE）的编码器和解码器，可以近似得到，，，。

模型定义

扩散模型（DMs）如 Stable Diffusion（SD）通过步前向过程逐步将初始latent code 转换为高斯噪声。在每个时间步，通过向直接添加噪声生成噪声latent code ，其公式为：

，

其中，是控制时间步噪声水平的累积参数。在反向过程中，基于 SD 的多步 SR 方法通常使用步去噪过程，将高斯噪声逐步转换为高质量 latent code ，通过 ControlNet 将低质量图像作为条件（如图 2(a) 所示）。在时间步阶，通过 SD UNet 估计的噪声和当前 latent code ，可以计算出：

。

然后，时间步的 latent code 可以通过以下分布采样得到：

，

其中，和分别表示的均值和方差。然而，这些基于多步扩散的 SR 方法计算开销高，并且由于扩散过程中采样的随机噪声，结果往往不稳定。

为了解决这一问题，OSEDiff 从低质量 latent code 开始，仅使用一步扩散完成 SR 过程（如图 2(b) 所示），同时提高了效率和稳定性。和之间的转换可以描述为：

。

在上述公式中可以省略时间步，因为在单步扩散中，可以视为常数。

在深度学习恢复方法中，学习 LQ 和 GT 特征之间的残差已被成功应用。然而，扩散模型通常执行多步迭代，使得传统的残差学习难以适用。最近开发的 OSEDiff 方法通过单步扩散实现了端到端 SR 训练，使得采用残差学习策略成为可能。在此，我们将 SR 问题定义为学习和之间的残差，如图 2(c) 所示。由于扩散模型在逆扩散过程中被训练为去噪，因此我们在全局残差连接中使用减法。这样的残差学习的定义可以帮助模型专注于从 HQ latent code 中学习所需的高频信息，同时简化从 LQ latent code 中提取不相关信息的任务。同时也能加速模型训练过程的收敛。

此外，在推理过程中，我们可以引入比例因子来调整添加到 LQ latent code 的残差，其公式为：

。

用户可以通过选择较小的（即保留更多原始内容）或较大的（即更多地增强细节）来根据个人偏好调整输出。

图2

双LoRA训练

现有的基于 SD 的 SR 方法大多在训练过程中将像素级和语义级增强目标交织在一起，这使得在内容保真度和感知质量之间的平衡变得困难。一些方法采用两阶段网络顺序地进行像素级和语义级增强。然而，前一阶段产生的误差可能传播到后一阶段，从而限制整体性能。此外，使用两个独立的网络会增加计算负担和内存需求，降低了方法的效率。

受在定制化文本到图像（T2I）任务中使用独立 LoRA 模块生成多样化风格的成功应用启发，我们提出了一种解耦训练方法，在预训练的 SD 模型下利用两个 LoRA 模块，分别针对 SR 任务的像素级和语义级增强。我们的方法称为“双LoRA”，在训练过程中仅引入少量额外参数。这些 LoRA 参数在推理阶段可以合并到预训练的SD模型中。图 3(a) 展示了我们方法的训练过程。我们冻结了预训练 VAE 的参数，并在 SD 的 UNet 中引入两个可训练的 LoRA 模块。

由于 LQ 图像受到噪声、模糊和降采样等退化的影响，我们首先优化像素级 LoRA 以减少退化影响，然后优化语义级 LoRA。像素级 LoRA 的优化由像素级损失函数驱动，其参数记为。结合预训练的 SD 参数，完整参数集表示为。HQ latent code 可以通过以下公式估计：

，

并通过VAE解码器解码为：

。

对于语义级增强，我们通过语义级损失函数训练另一个 LoRA，记为。为了解耦像素级和语义级目标，我们固定已训练的像素级 LoRA ，并将其与语义级 LoRA 结合进行训练，形成 PiSA-LoRA 组（见图3(a)）。注意，在此阶段仅更新 PiSA-LoRA 组中的语义级 LoRA 模块。这确保了优化过程专注于语义细节，而不会受到像素级退化的过多干扰。在 PiSA-LoRA 训练阶段，完整参数集可以表示为：

。

该阶段后的HQ latent code 为：

，

并通过VAE解码器解码为：

。

图3

像素级和语义级损失

我们使用损失训练像素级 LoRA 模块。如图 4 中所示，损失能够有效去除退化并增强边缘，但它不足以生成语义级细节，导致 SR 输出过于平滑。

LPIPS 损失可以通过与预训练的 VGG 分类网络对齐高层特征来激活语义细节。然而，VGG 网络仅在有限的图像类别上训练。GAN 损失通过对抗训练捕获语义信息，鼓励生成器生成更真实的图像，但 GAN 损失在训练中可能不稳定并引入伪影。最近开发的 SD 模型在生成增强语义细节的开放类别图像方面表现出色。

作为一种条件生成模型，SD 可用于形成隐式分类器来建模后验分布，其相对于合成图像的梯度如下：

，

其中是文本提示，是当前时间步，。SD 模型由参数定义，通过噪声预测建模和的得分函数。

通过对上式中的梯度在所有可能的上取期望，我们得到 CSD 损失。CSD 损失最初用于 3D 生成任务，通过优化渲染图像的后验概率，使其语义内容与文本提示对齐。受 CSD 损失在生成任务中的功能启发，我们研究了 CSD 损失在 SR 任务中进行语义级增强的应用。根据之前的研究，我们将 CSD 梯度公式化为以下公式：

其中，梯度期望在所有时间步上计算，噪声从中采样，由以下公式得到：

是从中提取的文本提示，是依赖于时间步的标量权重，表示包含 CFG 项的预训练 SD 输出，其公式为：

需要注意的是，VSD 损失也在潜在空间中对齐增强图像与自然图像的分布，其在 OSEDiff 中已被验证对 SR 有效。VSD 损失的梯度可以表示为：

其中，表示经过微调的 SD 输出，其与合成图像的分布对齐。带有的 VSD 损失可以分为两个部分：当时的 VSD 损失，即，以及 CSD 损失。结合LPIPS损失，我们可视化了 VSD 两部分对语义级 LoRA 优化的结果。观察显示，CSD 损失在正常引导因子时显著增强语义细节，而 VSD 损失在时弱化语义细节。此外，的优化需要双层优化，导致内存消耗大且训练不稳定。相比之下，CSD 损失无需双层优化，显著降低了内存使用并提高了训练稳定性。因此，我们将 LPIPS 和 CSD 损失结合用于语义级 LoRA 优化。

图4

PiSA-SR 的推理过程

图 3(b) 展示了 PiSA-SR 的推理过程。在默认推理设置下，仅使用合并了像素级和语义级 LoRA 模块的 PiSA-LoRA，与预训练的 SD 模型一起处理输入，能够在一步扩散内实现最先进的超分辨率性能。为了实现灵活的 SR 以满足多样化的用户偏好，受 CFG 的启发，我们引入了一对像素和语义引导因子，分别记为和，以控制 SR 结果，其公式如下：

在上述公式中，是仅使用像素级 LoRA 的输出，而是同时使用像素级和语义级增强的输出。它们之间的差值，即，可以很好地表示增强的语义细节。因此，通过调整和的值，我们可以控制像素级 LoRA 和语义级 LoRA 的贡献，从而生成具有不同风格的 SR 结果。

实验

可调节因子的 SR 实验

我们通过固定一个引导因子（或）为 1，并调整另一个因子的值，观察重建图像的变化。PSNR、LPIPS、CLIPIQA 和 MUSIQ 被用来评估性能，PSNR衡量像素级保真度；LPIPS 以 GT 为参考评估图像感知质量；CLIPIQA 和 MUSIQ 无需参考即可衡量图像质量。

表1

实验结果如表 1 所示。增加像素级引导因子会使无参考指标（CLIPIQA 和 MUSIQ）持续提高。这是因为的增加可以消除图像退化并增强边缘，符合这些指标的偏好。PSNR 在时达到峰值，表明此时像素级保真度最佳。LPIPS 在时达到最佳值，表明此时恢复的图像在感知上与 GT 最相似且细节丰富。进一步增加会降低 PSNR 和 LPIPS 分数。

增加语义级引导因子也会使 CLIPIQA 和 MUSIQ 持续提高，其上限高于像素级调整。这是因为的增加能够合成更多语义级细节。PSNR 随着的增加而下降，而 LPIPS 先提高，在达到峰值，然后下降。这是因为过多的语义细节可能引起图像内容变化，从而降低像素级保真度。同时，过度增强的图像可能展示出许多与 GT 不同的细节，使 LPIPS 指标恶化。

PiSA-SR 的灵活性允许用户根据具体需求自定义偏好，或保留更多的保真度，或强调更丰富的语义增强。

与现有方法的比较

定量比较

在默认设置下（和），PiSA-SR 可通过一步扩散完成推理。表2比较了默认版本 PiSA-SR 与其他基于 DM 的 Real-SR 方法的性能。

ResShift 和其蒸馏版本 SinSR 在无参考指标上表现有限，表明其感知质量较差。PASD 和 SeeSR 利用预训练 SD 作为基础模型，并提取额外的高级信息来提高图像的感知质量，其无参考指标（如 MUSIQ 和 CLIPIQA）显著提高，但多步推理使其效率较低。此外，其较低的 LPIPS 和 DISTS 分数表明对 GT 的重建不够准确。OSEDiff 使用 VSD 损失将多步 DM 的生成能力浓缩到一步扩散中，虽然有效且高效，但其无参考指标表现有限。

我们提出的 PiSA-SR 同样只需一步推理，展示出令人印象深刻的像素级保真度和语义级感知质量。PiSA-SR 不仅在参考指标（如 LPIPS 和 DISTS）上优于其他方法，还在无参考指标（如 CLIPIQA、MUSIQ 和 MANIQA）上表现出色。

表2

定性比较

ResShift 和 SinSR 由于生成能力有限，无法生成更丰富的纹理和细节。
StableSR 和 DiffBIR 借助强大的 SD 先验生成了更细腻的细节（例如第二个例子中更真实的企鹅羽毛）。
PASD 和 SeeSR 结合高级信息指导，生成了更全面的细节。然而，PASD 和 SeeSR 的固有随机性可能导致过度增强（如 SeeSR 生成的不自然企鹅羽毛）或过度平滑的细节（如 SeeSR 生成的模糊木凳纹理）。
OSEDiff 在两个例子中生成了更一致的结果，但恢复的细节有限。
对比之下，提出的 PiSA-SR 提供了高质量、真实感强的 SR 结果。通过双 LoRA 设计，恢复的结构与输入 LQ 图像很好地对齐，提供了更准确的保真度信息，同时生成了更加自然和丰富的细节。

复杂度比较

表 3 比较了方法的参数量和推理时间，其中 PiSA-SR-def. 和 PiSA-SR-adj.分别表示默认设置和可调节设置。在的 SR 任务中，使用分辨率为的 LQ 图像，在单个 NVIDIA A100 80G GPU 上测量推理时间。 ResShift 的参数较少，因为它从零开始训练，未使用预训练 SD 模型。SinSR 继承了其父模型 ResShift 的参数。在基于 SD 的 SR 方法中，PiSA-SR-def. 参数量最少，且推理时间最快。与 OSEDiff 不同，PiSA-SR-def. 在推理过程中不需要语义提取器，而是通过 CSD 将语义信息浓缩到语义级 LoRA 中。PiSA-SR-adj. 需要两步扩散以从像素级和语义级 LoRA 模块计算输出，导致推理时间略长于默认设置。然而，这一小幅时间增加为用户提供了根据具体需求生成 SR 输出的优势。

表3

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者论文投稿+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看