(AAAI 2025) 基于生成感知先验的低光照图像增强

论文信息

题目:Low-Light Image Enhancement via Generative Perceptual Priors
基于生成感知先验的低光照图像增强
作者:Han Zhou, Wei Dong, Xiaohong Liu, Yulun Zhang, Guangtao Zhai, Jun Chen
源码:https://github.com/LowLevelAI/GPP-LLIE

论文创新点

  1. 生成感知先验提取管道:作者提出了一种创新的管道,通过预训练的视觉语言模型(VLMs)提取低光照图像的全局和局部生成感知先验。该管道通过设计文本提示,引导VLMs评估图像的多个视觉属性(如对比度、可见性和清晰度),并通过基于sigmoid的量化策略将这些评估结果量化为全局评分和局部质量图。

  2. 基于Transformer的扩散框架:作者开发了一种高效的基于Transformer的扩散框架(GPP-LLIE),用于低光照图像增强。

  3. 全局感知先验调制的层归一化(GPP-LN):作者提出了一种新的层归一化方法,通过全局感知先验调制层归一化过程。该方法利用全局评分S来调整层归一化的缩放和偏移参数,从而更好地反映全局感知先验提供的感知洞察。

  4. 局部感知先验引导的注意力机制(LPP-Attn):作者设计了一种局部感知先验引导的注意力机制,通过局部质量图M引导注意力计算。

摘要

尽管在增强低光照(LL)图像的可见性、恢复纹理细节和抑制噪声方面取得了显著进展,但由于现实场景中复杂的光照条件,现有的低光照图像增强(LLIE)方法在实际应用中仍面临挑战。此外,生成视觉上逼真且吸引人的增强效果仍然是一个未被充分探索的领域。针对这些挑战,作者提出了一种新颖的LLIE框架,该框架通过视觉语言模型(VLMs)生成的生成感知先验(GPP-LLIE)进行指导。具体来说,作者首先提出了一种管道,引导VLMs评估LL图像的多个视觉属性,并将评估结果量化为全局和局部感知先验。随后,为了将这些生成感知先验融入LLIE中,作者在扩散过程中引入了一个基于Transformer的主干网络,并开发了一种新的层归一化(_GPP-LN_)和一种由全局和局部感知先验引导的注意力机制(_LPP-Attn_)。大量实验表明,该模型在成对的LL数据集上优于当前的最先进方法,并在现实世界数据上表现出优异的泛化能力。

关键字

低光照图像增强,生成感知先验,视觉语言模型,扩散模型,Transformer

III. 方法

本工作的主要重点是提取能够很好地表示LL图像视觉属性的生成感知先验,并开发由这些先验引导的LLIE模型,以生成逼真且视觉上吸引人的增强结果。整体框架如图3所示。

图片

在本节中,作者首先讨论了利用视觉语言模型(VLMs)指导进行LLIE任务的动机(第3.1节)。然后,作者提出了一种创新的管道,引导VLMs全局和局部评估LL图像的视觉属性,并通过引入基于sigmoid的量化策略提取感知先验(第3.2节)。此外,作者开发了一种基于Transformer的扩散框架,并将这些先验融入其中以指导反向扩散过程(第3.3节)。

利用VLMs指导的动机

尽管最近的低光照图像增强(LLIE)方法表现出改进的性能,但在应用于现实世界图像时,它们通常会产生不平衡的结果,出现过曝伪影,这些图像的光照条件通常与训练数据集不同。这些结果突显了当前LLIE方法在多样化光照条件下自适应增强图像的普遍能力不足。因此,使模型能够自主感知并适应各种视觉失真至关重要。受最近新兴视觉语言模型(VLMs)在低层次视觉感知和理解方面展示的能力的启发,作者旨在探索利用这些VLMs的感知能力来促进LLIE任务的潜力。

从VLMs中提取生成感知先验

VLMs通常通过数百万个文本-图像对进行训练,并在生成文本和图像之间的对齐理解方面展示了显著的零样本能力。因此,利用VLMs中固有的先验信息来帮助LLIE模型在恢复过程中做出更合适的决策是非常有前景的。然而,最近图像恢复工作中使用的VLMs主要集中在理解图像的语义内容,但它们缺乏对视觉细节的精确表示。此外,准确描述复杂LL图像的内容具有挑战性。相比之下,作者在本工作中使用的VLMs是LLaVA,它进一步通过200K个与低层次视觉方面相关的指令-响应对进行了微调。在本文中,作者引入了一种新的管道,将LLaVA应用于LLIE:作者设计了文本提示,引导LLaVA评估LL图像的多个视觉属性。此外,与之前方法中的文本/图像嵌入不同,作者引入了量化策略,输出量化的全局评估和局部质量图作为LLIE的感知先验。作者提出的感知先验提取管道如图2所示。

图片

生成感知先验引导的扩散Transformer

为了在未见现实世界图像上实现增强的泛化能力,作者基于扩散Transformer(DiT)网络构建了LLIE模型,该网络与视觉Transformer(ViT)共享相似的架构,并具有良好的可扩展性。然而,DiT最初设计用于特定分辨率(如256*256或512*512)的图像合成,且ViT的计算复杂度随输入尺寸呈二次方增长。显然,原始的DiT不适用于LLIE任务,因为LLIE模型通常处理具有可变尺寸且有时较大分辨率的LL图像。为此,作者在扩散过程中引入了一种基于Transformer的主干网络,该网络适用于LLIE,并包含用于融入外部生成感知先验的特殊设计。

 

IV. 实验

图片

图片

图片

图片

图片

### AAAI 2025会议质量图像处理研究提交指南和主题 对于希望向AAAI 2025会议提交有关质量图像处理的研究,参与者应当遵循严格的提交准则。这些指导方针旨在确保所提交的内容具有高质量并符合学术标准。 #### 提交截止日期 重要的是要注意工作坊及教程提案接受通知的时间是在2021年12月21日[^1];然而,针对具体论文提交的重要时间节点会在官方发布的征稿通知中给出,请务必关注最新的时间安排以获取最准确的信息。 #### 主题范围 质量图像处理是一个广泛而重要的领域,在此背景下可以探讨的主题包括但不限于: - 图像去噪技术的发展及其应用效果评估 - 基于深度学习的方法来提升模糊照片清晰度的技术进展 - 面向特定场景(如医疗影像、遥感数据)下的质图片修复算法设计 - 跨模态迁移学习用于改善视觉特征提取性能的研究成果分享 - 新兴硬件加速平台对高效能实时处理方案的支持情况分析 为了使文章更贴近实际需求和社会热点问题,建议作者们紧密联系当前社会背景和技术发展趋势来进行选题规划。 #### 准备材料 当准备投稿文件时,应按照大会规定格式撰写全文,并附上必要的补充资料,比如实验代码、测试集链接等辅助说明文档。此外还需填写版权转让声明表单以及提供同行评审所需的匿名版本稿件。 ```python # 示例:如何打包Python项目以便上传作为附件 import shutil shutil.make_archive('submission_materials', 'zip', './project_folder') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值