NeurIPS 2023 Spotlight | 用于真实图像去模糊的层次结合扩散模型HI-Diff

TechBeat人工智能社区

已于 2024-01-29 11:49:29 修改

阅读量2.1k

点赞数 24

分类专栏：技术文章文章标签：计算机视觉图片压缩泛化

于 2024-01-29 10:59:58 首次发布

本文链接：https://blog.csdn.net/hanseywho/article/details/135907178

版权

技术文章专栏收录该内容

122 篇文章

订阅专栏

本文介绍了一种新型的图像去模糊模型HI-Diff，它在压缩的潜在空间中运用扩散模型生成先验特征，并通过分层集成模块融合回归模型，提升了在复杂模糊场景下的泛化能力和细节恢复。实验证明，HI-Diff在合成和真实世界数据集上优于现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文介绍了一种新型图像去模糊模型——分层集成扩散模型（HI-Diff）。HI-Diff主要在高度压缩的潜在空间中运行扩散模型，以生成去模糊过程的先验特征。并且高度压缩的潜在空间确保了DM的效率。此外，HI-Diff采用分层集成模块，将先验与基于回归的模型在多个尺度上融合，增强了模型在处理复杂模糊场景时的泛化能力。通过在合成和真实世界模糊数据集上的全面实验，我们证明了HI-Diff超越了当前最先进的方法。

论文题目： Hierarchical Integration Diffusion Model for Realistic Image Deblurring

论文链接：https://arxiv.org/abs/2305.12966

代码链接： https://github.com/zhengchen1999/HI-Diff

01. 研究问题

图像去模糊是计算机视觉领域的一个长期研究任务，旨在从模糊图像中恢复出清晰的图像。造成图像模糊的因素有多种，例如相机抖动、快速移动的物体等。这些因素导致的模糊在真实场景中往往是复杂且非均匀的。因此，开发有效的图像去模糊算法对于提高图像质量和增强视觉体验具有重要意义。

02. 研究背景

传统方法：基于优化问题，使用自然图像先验，如局部平滑、稀疏图像先验等。常见的方法包括局部平滑先验、稀疏图像先验、L0范数梯度先验。然而，这些方法依赖于手工设计的先验，导致在复杂情况下泛化能力差。

基于深度CNN的方法：随着深度学习的快速发展，使用基于CNN的方法在图像去模糊方面取得了显著进展。例如，利用多尺度CNN、粗到细的网络等进行去模糊。优点是效率高，能处理多种模糊情况，但可能在细节恢复方面有限。

基于Transformer的方法：采用自注意力机制，如“转置”注意力和条带令牌，以捕捉长距离依赖和动态模糊。这些方法相比基于CNN的方法进一步改善了去模糊性能，但在恢复图像细节方面仍有限制。

扩散模型（DMs）：扩散模型是概率生成模型，能够通过随机迭代去噪过程从高斯噪声中构建所需数据样本。能够生成丰富的细节，但是整体复杂度然较高，尤其是对高分辨率图像。此外，这些方法容易受到细节分布不对齐和不希望的伪影的影响。

03. 方法动机

当前的图像去模糊方法主要分为两大类：

基于回归的方法：在恢复图像时倾向保守，容易恢复细节较少的图像——低真实感（realism）
基于生成模型的方法：在细节生成方面有效，但有时会产生原始图像中不存在的不希望的伪影——低真实度（fidelity）

为了解决当前方法在图像去模糊中的局限性，我们提出了一种新型模型——分层集成扩散模型（HI-Diff）。本文方法通过以下方式实现：

利用扩散模型生成先验信息，以增强模型在处理真实场景中非均匀模糊的能力。
在高度压缩的潜在空间中执行扩散模型，以确保处理效率。
将生成的先验应用于基于回归的模型，并在多个尺度上指导该模型，同时实现高真实感和高真实度。

04. 方法介绍

在本节中，我们首先介绍本文模型的整体架构。接着介绍模型的训练和测试流程。

4.1 模型架构

4.2 训练与推理

本方法采用两阶段训练，训练过程如图4所示：

第一阶段：将真实图像压缩为Transformer的先验特征，此阶段训练Transformer和LE进行特征压缩。

第二阶段：训练潜在扩散模型生成无需真实图像的先验特征，同时联合训练Transformer和扩散模型以提升性能。

推理过程：首先通过LE将输入的模糊图像压缩成条件潜在表示。其次通过条件化的扩散模型生成先验特征。最后利用Transformer在先验特征的指导下重构去模糊图像。

05. 实验结果

消融实验：我们对提出方法的各个进行消融实验，证明方法的有效性。同时我们还在图5中对扩散过程进行了可视化。我们发现随着逆过程的进行，模糊图像逐渐变得清晰。

定量对比：我们在合成（GoPro、HIDE）、真实（RealBlur-R、RealBlur-J）数据集上，与最新方法进行对比，我们的方法取得更好的结果。

定性对比：我们还提供了视觉对比结果，可以发现，我们提出的方法可以重建更准确的纹理和更清晰的细节。同时在论文中提供了更多的视觉对比。

模型大小：我们进一步展示了模型大小（Params）和计算复杂性（FLOPs）的比较。结果表明我们的方法在性能和计算消耗之间实现了更好的权衡。

06. 结论

本文设计了分层集成扩散模型（HI-Diff），用于实现更加真实的图像去模糊。HI-Diff通过执行扩散模型来为基于回归的方法生成先验特征，从而在去模糊过程中提高效果。基于回归的方法保留了图像的总体分布，而扩散模型生成的先验特征则增强了去模糊图像的细节。同时，扩散模型在高度压缩的潜在空间中执行，确保了计算效率。此外，我们提出了层次集成模块（HIM），以层次化地融合先验特征和Transformer的图像特征，增强了模型在复杂模糊场景下的泛化能力。

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区