ICCV 2023 | Retinexformer 暗光增强,图像恢复最新sota,清华大学联合ETH等开源

本文编辑 新智元  编辑:LRS

【新智元导读】全面超越暗光增强sota模型,Retinexformer架构端到端、单阶段解决过曝、伪影、低光等问题!

在增强弱光图像时,许多深度学习算法都是基于Retinex理论的,不过Retinex模型没有考虑隐藏在黑暗中或由点亮过程引入的损坏。

此外,这些方法通常需要繁琐的多阶段训练管道,并依赖于卷积神经网络,在捕获长期依赖性方面存在局限性。

来自清华大学、维尔茨堡大学、苏黎世联邦理工学院的研究人员最近在ICCV 2023上发表了一篇新论文,制定了一个简单但原理性的单阶段Retinex-based框架(ORF)。

2d854e60954a089d872fc969bc35cf8d.png

论文链接:https://arxiv.org/abs/2303.06705

代码链接:https://github.com/caiyuanhao1998/Retinexformer

ORF首先估计照明信息以照亮低光图像,然后恢复损坏以产生增强图像。

研究人员设计了一个照明引导Transformer(IGT),利用照明表示直接建模的非本地相互作用的区域与不同的照明条件,然后将IGT插入ORF以实现Retinexformer算法。

全面的定量和定性实验表明,文中提出的Retinexformer在13个基准数据集中显著优于最先进的方法;用户在暗光目标检测方面的研究和应用也揭示了该方法潜在的实用价值。

e6dff5017c436011d4fa27445e5ad40d.png

图1 Retinexformer 和之前基于Retinex理论的算法对比

目前所有的代码、模型、训练日志、十三个数据集(LOL-v1, LOL-v2-real, LOL-v2-synthetic, SID, SMID, SDSD-in, SDSD-out, MIT Adobe FiveK, LIME, NPE, MEF, DICM, VV)的测试结果均已开源,研究人员还基于 BasicSR 开发了一个集成了八大数据集的训练框架。

暗光增强简介

如图1所示,暗光增强的主要任务是增强低光图像的能见度和对比度,同时修复隐藏在黑暗中或由于提升亮度而引入的噪声、伪影、颜色畸变等复杂的退化模式。

f5b53273e30c3194a232ba9f23b5702e.png

图2 暗光增强任务示意图

当前的暗光增强算法大体上可以分为三类:朴素方法、传统感知方法、深度学习方法。

朴素方法一般会直接在全局范围内增强整张图像的亮度和对比度。

经典的算法有直方图均衡化(histogram equalization )和伽马矫正(Gama Correction)。然而这类算法没有考虑到光照因素,使得增强后的图像与真实光照图像严重不符。

传统感知算法大都基于视网膜理论(Retinex Theory),将一张自然图像解耦为照度图(Illumination)和反射图(Reflectance),并将反射图作为暗光增强后的图像。

然而这类算法有两个缺陷:一是假定暗光图像都是干净的,不存在噪声伪影等。然而由于成像设备的缺陷,暗光图像常常带有噪声;二是这类算法依赖于手工设计的图像先验,常常需要调参且表征能力很弱。

现有的深度学习方法大多基于卷积神经网络,不擅长于捕获长程依赖关系,不利于图像的修复,有部分深度学习算法与视网膜分解理论相结合。

然而这类算法大都需要一个冗长的流程,采取一个多阶段的训练方案,分别训练多个不同的 CNN 来做不同的任务,如解耦彩色图像、给反射图去噪、调整照度图等;然后将这些训好的 CNN 连接起来进行微调。整个训练过程繁琐复杂,费时费力。

为了解决上述难题,这篇论文的贡献如下:

1. 提出了首个与视网膜理论相结合的 Transformer 算法,名为 Retinexformer,以用于暗光增强。

2. 推导了一个单阶段视网膜理论框架,名为 ORF(One-stage Retinex-based Framework),不需要繁复的训练和微调流程,只需要一个阶段端到端的训练即可。

3. 设计了一种由光照引导的新型多头自注意机制,名为 IG-MSA(Illumination-Guided Multi-head Self-Attention,IG-MSA),将光照信息作为关键线索来引导长程依赖关系的捕获。

4. 该算法在十三个暗光增强榜单上达到了更好的定量和定性效果,同时在用户研究和黑夜目标检测任务上验证了我们算法的实用价值。

Retinexformer框架

Retinexformer 采用设计的 ORF,而 ORF 又由两部分构成:(i) 光照估计器(illumination estimator)和 (ii) 退化修复器(corruption restorer)。

0a0bb3f716c985c028c7ca4ede2e2ea4.png

图3 本文方法的整体框架

在图3 (b) 中,研究人员设计了一个光照引导的 Transformer IGT(Illumination-Guided Transformer)来作为退化修复器,IGT 的基本单元是光照引导的注意力块 IGAB (Illumination-Guided Attention Block),IGAB 由两个层归一化 LN(Layer Normalization),一个 IG-MSA 和一个前馈网络 FFN(Feed-Forward Network)组成,其细节如图3 (c) 所示。

2.1 单阶段视网膜理论框架

根据视网膜理论,一个低光图像 I 可以分解为一个反射图 R 和一个照度图 L 的点乘:

4b143a50a2f2c9af81049af55ab3db80.png

然而这个视网膜模型并没有考虑噪声伪影等退化因素。因此,我们将这条公式重写为:

768a5419735c08472470e70ed58226a4.png

分别在反射图和照度图上加入了扰动项。那么在提升低光图像亮度时,上边等式两边会同时点乘一个亮度图:

a8583d1b45b4239806b4441faf04f2f0.png

等式右边第三项便表示隐藏在黑暗中的噪声伪影,并在提升亮度过程中被进一步放大。第二项表示点亮过程造成的失曝,过曝和颜色畸变。可将(3)式进一步简化为:

ee37fc1939d95d7e4937a172f330c955.png

其中的 C 表示整体的退化项。基于(4)式,可将ORF推导为如下:

97bdb5dca6cc285a6c604a069c5bb660.png

低光图像和照度先验图先经过光照估计器后的输出作为退化修复器的输入。

2.2 光照引导的 Transformer

如图3 (a) (ii) 所示,IGT采用一个 encoder-bottleneck-decoder 的 U-型结构。其中最重要的组成部件便是 IG-MSA,光照估计器输出的增亮特征图输入到每一个 IG-MSA 当中。在 IG-MSA 当中,输入的特征图首先被变形为 token,然后被分成 k 个 heads:

f7c0081aabada4c260474981184c2278.png

对每个heads,分别将其线性投影为 Q,K,V:

dcf18d0b07a4ea883d0f16a72228c022.png

同时也将增亮特征图形变成 token:

0926a0d8dd3cf0319e8667909177e96e.png

然后在每一个 head 计算自相似时,用光照信息作为引导:

d1b199141890c4afc53da9aa758f2e5d.png

我们的 IG-MSA 的计算复杂度为:

19e904abe9eade3518042ea59c6838b3.png

同比全局的MSA的计算复杂度:

c0bf397100a3141ae26e799172e81e9e.png

我们 IG-MSA 计算复杂度与输入尺寸成线性而全局MSA的计算复杂度与输入成二次相关。我们的计算复杂度明显更低。

实验结果

我们在 LOL-v1, LOL-v2-real, LOL-v2-synthetic, SID, SMID, SDSD-in, SDSD-out, MIT Adobe FiveK 八个数据集上开展定量实验,实验结果如表1、2所示:

2946c61b4c9204b45db982209d820721.png

表1

b654770414996f0b91545687f7ad41ff.png

表2

此处需要补充说明一下,MIT Adobe FiveK 官方只提供了RAW数据,需要大家自己导出才能得到 RGB 数据。

导出有两种格式,一种是 pro RGB,这种格式不适于人的眼睛来看,但是计算得到的 PSNR 和 SSIM 指标都偏高,便于大家报指标。

而另一种是 sRGB 格式,这种就是最常见的 RGB 图像格式,但是这种格式指标会比较低,本文采用的就是这种格式,并且已经在 repo 里贴心地为大家准备好了已经导出的 sRGB 图像下载链接,可以直接下载使用。

我们在 LOL-v1, LOL-v2-real, LOL-v2-synthetic, SID, SMID, SDSD-in, SDSD-out, MIT Adobe FiveK, LIME, NPE, MEF, DICM, VV 上测试了定性效果,视觉对比如图4、5、6、7所示

5ee8d8e814ff70d6ce31c4ee44d41fe9.png

图4 LOL-v1, LOL-v2-real 和 LOL-v2-synthetic 上的视觉效果对比

a6fbb3b8463a009f6dfca004e31739fb.png

图5 SID 和 SMID 上的视觉效果对比

c9a314d85778102385fd7e34bf383cb8.png

图6 SDSD-indoor 和 SDSD-outdoor 上的视觉效果对比

74545c6bdb3451fed25ad2739c339f75.png

图7 LIME, NPE, MEF, DICM 和 VV 上的视觉效果对比

另外我们还做了用户调查,结果如表3所示:

627c3883f62f86a1f1cbba7ee9561b4e.png

表3 用户调查结果

最后,将我们的 Retinexformer 作为预处理器对暗光图像进行增强以辅助夜间目标检测的效果,在 ExDark 数据集上的定量结果如表4所示:

3856c901bb48e06e799426e985ef5eb6.png

表4 暗光增强辅助夜间目标检测实验指标

一些暗光增强辅助夜间目标检测的例子如图8、9、10 所示:

6ae6827aeb32151066998c69e780fe49.png

图8

f300a5477eabea2870f3ad5d9ee0dfd0.png

图9

0f946254e2b54847e1c9c74944f7d875.png

图10

参考资料:

https://zhuanlan.zhihu.com/p/657927878

关注公众号【机器学习与AI生成创作】,更多精彩等你来读

卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文!一口气读完

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

0b88035b1cfee8d4c674b327ce8197a1.png 戳我,查看GAN的系列专辑~!

一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击一杯奶茶,成为AIGC+CV视觉的前沿弄潮儿!,加入 AI生成创作与计算机视觉 知识星球!   

### RetinexFormer介绍 RetinexFormer是一种基于Transformer架构的一阶段低光照图像增强方法。该模型旨在解决传统低光照增强算法中存在的色彩失真、细节丢失等问题,通过引入内部引导变换(IGT),将传统的Retinex理论与现代深度学习技术相结合[^2]。 #### 模型结构特点 - **一阶段框架设计**:RetinexFormer采用了一种简单而有效的一阶段框架(ORF)。此框架能够直接从输入的低光图像中估计出合理的照明信息,并据此调整像素亮度分布,从而实现自然且真实的视觉效果提升[^3]。 - **融合Retinex理论**:利用经典的Retinex理论来指导网络的设计,在保持原有颜色特性的基础上改善暗部区域的表现力。具体来说,就是把原始图片分解成反射分量和光照分量两部分处理后再合成最终结果[^1]。 - **高效的数据表示能力**:借助于自注意力机制的优势,使得模型可以更好地捕捉全局上下文依赖关系以及局部特征之间的关联性,进而提高了对于复杂场景下不同物体表面材质属性的理解精度。 ```python import torch from retinexformer import RetinexFormerModel model = RetinexFormerModel() input_image = torch.randn(1, 3, 256, 256) # 假设输入尺寸为 (batch_size=1, channels=3, height=256, width=256) output_enhanced_image = model(input_image) print(output_enhanced_image.shape) # 输出应具有相同的形状 ``` ### 应用领域 - **夜间监控视频质量优化**:通过对采集到的画面进行实时预处理,使后续分析任务更加容易执行,比如人脸识别、车牌识别等操作准确性会显著提高[^4]。 - **自动驾驶辅助系统中的环境感知模块**:当车辆行驶至光线条件较差路段时,经过增强后的影像有助于传感器更精准地判断周围障碍物位置及距离信息,保障行车安全。 - **医疗影像诊断支持工具开发**:某些特殊情况下拍摄所得X射线片可能存在曝光不足现象,此时运用此类技术可帮助医生获得更为清晰直观的观察视角,有利于病情评估工作开展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值