CVPR 2024 | 首个 DP + CLIP 的 Defocus 去模糊算法

最新推荐文章于 2025-01-17 15:36:00 发布

CVHub

最新推荐文章于 2025-01-17 15:36:00 发布

阅读量2k

点赞数 25

分类专栏：底层视觉多模态学习文章标签：算法

本文链接：https://blog.csdn.net/cvhub/article/details/137250754

版权

多模态学习同时被 2 个专栏收录

16 篇文章

订阅专栏

底层视觉

12 篇文章

订阅专栏

论文链接：https://arxiv.org/abs/2307.09815
代码链接: github.com/noxsine/LDP

导读

全像素双核(dual-pixel, DP)传感器是一种最初被用于促进相机自动对焦的图像传感器。DP 传感器将传统的图像传感器的每个像素一分为二，因而一次拍摄能够捕获两幅带有微小基线的图像对，即左视图和右视图。DP传感器采集到的图像中，对焦平面的左右视图几乎不存在视差，而离焦平面的左右视图存在视差，该视差又称为离焦视差。由于 DP传感器所产生的离焦视差与散焦模糊量直接相关，因此DP传感器受到了学术界的广泛关注。研究人员使用DP传感器采集的图像来进行深度估计、图像去反射和图像散焦模糊去除等。

DP图像对的视差由其点扩展函数产生，与模糊量相对应。因此DP图像可用于估计反映模糊量的模糊图(散焦图或视差图)，从而能够促进网络更好的去除图像中非均匀的散焦模糊。然而现有的全像素双核图像模糊图估计方法要么使用额外的合成数据作为监督信号，要么需要预校准的模糊核，这限制了模型在估计模糊图方面的泛化能力，使得散焦模糊图像中的非均匀模糊不能很好的去除。

最近，对比语言图像预训练框架(CLIP)在语义分割、目标检测和3D点云理解等视觉任务上大获成功。因此，一个问题自然产生了，我们是否可以避免收集数据和设计模型的成本，使用CLIP来无监督地估计模糊图？然而，使用来自CLIP的语义知识来处理低级视觉任务尚未得到充分的探索。

因此，在本文中，我们提出了第一个引入对比语言图像预训练框架(CLIP)用于散焦模糊去除的方法，以准确地从DP对中无监督地估计模糊图。由于CLIP是使用超过4亿对的图像-文本对训练的，因此使用CLIP进行模糊图估计能够获得更好的泛化能力。准确的散焦模糊图能够促进高质量的去模糊图像生成。

主要贡献

探索了CLIP在low-level-vision任务中的潜力，我们提出了一个语言驱动的DP (LDP)离焦去模糊框架。据我们所知，我们是第一个提出引入对比语言图像预训练框架(CLIP)的框架，以准确地从DP对中无监督地估计模糊图，然后使用该模糊图促进非均匀散焦模糊的去除。

基于DP对的模糊和视差之间的几何关系，设计了一种用于模糊图估计的图像-文本格式。具体来说，我们提出使用DP图像对生成一个新的图像，并将图像的“模糊”描述转换为测量新形成图像的“对称性”，这是基于DP图像的成像过程的。

我们提出了模糊先验注意块，模糊加权损失和模糊感知损失，以促进DP图像对的清晰恢复。模糊先验注意块通过估计的模糊图来改变注意力图，该模糊图提供了去模糊核的先验知识。模糊加权损失利用模糊估计模块生成的模糊图，对图像中不同的区域采用不同的损失权重，这使得我们的网络能够专注于修复模糊更严重的区域。模糊感知损失使用模糊估计模块检测去模糊图像中的残留模糊，这能够进一步的提升输出的去模糊图像的质量。

网络结构图

更多细节请参阅论文原文。

实验结果

在DPD-blur、DDD-syn、RDPD数据集上的结果表明，我们的方法获得了最先进的性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

模糊图估计可视化

我们在DPD-blur上可视化了我们的方法所生成的模糊图，可以看到我们使用ensemble-format的方式生成的模糊图能够正确的反映模糊区域和清晰区域。

总结

在本文中，我们利用来自CLIP的模糊相关先验知识，研究了DP图像的端到端散焦去模糊。我们首先使用模糊感知和DP感知策略的集成来估计模糊图，然后在恢复DP图像之前使用估计的模糊图作为去模糊核。我们还提出了模糊感知和模糊加权损失，通过从CLIP中提取模糊知识，在训练过程中对DP图像的恢复进行正则化约束。在大量的实验中，我们的方法在定量和定性恢复性能上都大大优于过去的方法。在未来，提出的模糊图估计策略有望将CLIP应用和扩展到各种zero-shot立体视觉任务，我们希望这将激励今后的工作。