Multi-exposure image fusion via deep perceptual enhancement 通过深度感知增强实现多曝光图像融合

学霸视界

已于 2023-10-26 18:43:15 修改

阅读量3.2k

点赞数 1

文章标签：计算机视觉人工智能图像处理

于 2022-09-11 09:38:07 首次发布

本文链接：https://blog.csdn.net/u012183541/article/details/126802392

版权

Multi-exposure image fusion via deep perceptual enhancement

通过深度感知增强实现多曝光图像融合

作者：Dong Han, Liang Li, Xiaojie Guo, Jiayi Ma

期刊：InFus（2022）

摘要

由于自然场景的高动态范围与消费级相机的有限（低）范围之间的巨大差距，单张图像几乎无法记录一个场景的所有信息。多重曝光图像融合 (MEF) 已成为解决此问题的有效方法，它通过整合具有不同曝光的多个镜头，这本质上是一个增强问题。在融合过程中，需要同时关注信息量和视觉真实性两个感知因素。为了实现这一目标，本文提出了一种用于 MEF 的深度感知增强网络，称为 DPE-MEF。具体来说，提议的 DPE-MEF 包含两个模块，其中一个模块响应从输入中收集内容细节，而另一个模块负责颜色映射/校正以获得最终结果。进行了广泛的实验结果和消融研究，以显示我们设计的有效性，并在数量和质量上证明其优于其他最先进的替代方案。我们还验证了所提出策略在提高单张图像曝光质量方面的灵活性。此外，我们的 DPE-MEF 可以在 Nvidia 2080Ti GPU 上以每秒 60 对以上的速度融合 720p 图像，使其具有实用性。

引言

目前已经设计了许多基于深度学习的方法来解决 MEF 问题。限制深度学习方法性能的关键因素是没有可用于 MEF 的 ground-truth 真实数据。

MEF 不同红外与可见光融合更多关注信息性，而是应该兼顾信息量大和视觉真实性。其中，颜色是影响图像美感的最关键的因素。大多数现有 MEF 方法首先将图像的 RGB 颜色空间切换到亮度和色度分离颜色空间，例如YCbCr，然后仅在亮度（Y 通道）上应用融合策略，融合图像的颜色往往会变得相对苍白和失真，因为（极度）曝光不足的图像的颜色信息可能会因传感器质量有限而（严重）被破坏。

基于上述考虑，本文提出了下述深度神经网络来完成 MEF 任务。

融合框架

本文根据两个关键问题，将网络划分为两个子网络，即：细节增强模块和颜色增强模块，将原始问题解耦为两个较小问题，大大降低了复杂性。

将图像从RGB空间转换到YCbCr空间（Y：亮度分量，Cb、Cr：色度分量），细节增强模块（DEM）在Y分量进行，颜色增强模块（CEM）在Cb、Cr分量进行。

D.E.Ref表示细节增强参考。

DEM：细节增强模块

目的是设计一个局部自适应规则来调整图像的局部过曝或欠曝。

受视网膜理论的启发，将一副图分解为如：反照率和阴影，或反射率和照明两层。本文将图像I 交替的以 I = R · E （R = I / E，将 1/E 用A表示）的形式分解为场景细节R和曝光E分量。

假设某个R包含最丰富的细节信息，那么应该将调整向着从I中寻找最优的某个E的方向努力。对于每个位置（I , j）根据其周围半径为𝑟的窗口（Pij）内的局部统计量——局部均值𝜇𝑖𝑗和标准差𝜎𝑖𝑗来确定E𝑖𝑗。

随着曝光调整率α（α>1）的值逐渐增加，补丁 α · Pij 的标准差将相应的增加到 α · 𝜎𝑖𝑗 直到达到适当的曝光度。继续增加α，由于过曝，细节被逐渐截断，α · 𝜎𝑖𝑗 的值将会减小。

Eij可通过类似下式形式填写：

这里简单的取 p = ∞ ，也就是最大的 𝜎𝑖𝑗 对应的 α 值。有了Eij就可以立即通过 I = R · E 得到细节分量R。与以前仅使用原始源图像本身来完成融合的方法相比，本文提出的规则隐式地从每个源图像生成不同曝光的虚拟图像。

以上增强是提高曝光率α，其只适用于欠曝区域，为了将其适用于过曝区域，本文将过曝区域反转，使原来过曝区域看起来像欠曝区域，再使用与欠曝区域一样的增强规则。

CEM：色彩增强模块

本文定制了一个称为颜色增强模块 (CEM) 的模块。它旨在学习从目标（融合）亮度和源图像到融合图像的合适色度的颜色映射。将两个源图像（亮度和色度分量）的整体信息和目标亮度作为输入来推断最适合融合亮度（从 DEM 生成）的色度，如下所示：

其中 NCEM 表示要学习的参数为 𝜃CEM 的 CEM网络。

架构

以两个不同曝光的源图像 I1 和 I2 作为输入，DEM 为融合图像生成具有更丰富细节的亮度分量 𝑌𝑓，而色度分量将由 CEM 处理。

本文简单地采用类似 UNet 的编解码器架构作为主干。其中，DEM由两个编码器组成，其中一个称为联合编码器，接收两个源图像作为输入，旨在提取两个源图像之间的相关特征，而另一个对每个源图像进行单独编码，倾向于发现每个输入的代表信息，即判别编码器。然后，解码器将两个编码器的输出特征作为输入，并在每个尺度上接收编码器的跳跃连接，以生成最终的融合亮度分量。

CEM被设置为一个4层的联合编解码器结构，以探索输入图像之间的颜色映射关系。在实际情况下，融合图像没有颜色 ground-truths。也就是说，我们不能通过这种方式进行训练。为了训练 CEM 推断给定亮度的颜色，本文每个序列随机选择三个不同曝光度的图像，然后将选择的两个图像与第三个图像的亮度一起输入CEM。第三张图像的色度分量用作参考。

结果

传统方法和基于权重图的方法，失去了全局结构的一致性，并出现了明显的伪影。（f）的结果的对比度有些过度增强，并引入了一些源图像中不存在的纹理。

得益于色彩增强模块，即使原始图像由于过度曝光而缺乏色彩信息，本文的结果也具有更逼真和鲜艳的色彩，而竞争对手的结果可能会因为缺乏对颜色信息的具体处理，而遭受苍白或不真实的色彩问题。例如图中，由于曝光不当，源图像中森林的颜色信息被破坏了，但实际上可以推断出森林的颜色。

创新点

提出了一个用于 MEF 的深度感知增强网络，其包含两个模块，其中一个模块响应从输入中收集内容细节，而另一个模块负责颜色映射/校正以获得最终结果。

不足

目前的DPE-MEF主要作用于静态场景，即源图像需要严格配准。然而，由于相机和物体的运动，在曝光序列中有时会出现前景和背景的错位，这可能导致静态融合方法无法产生令人满意的融合结果。因此，如何将所提出的方法扩展到处理动态场景是一个重要的未来研究方向。此外，由于 CNN 结构的特点，在对训练有素的网络进行测试时，很难调整输入图像的数量。如何设计更灵活有效的模型结构，以便在一次融合过程中融合可调数量的源图像，是实际应用中需要考虑的另一个重要方面。

文献阅读笔记的翻译是来自于：学霸视界（xbsj.cool）推荐大家使用，可以免费翻译PDF！

学霸视界

关注

1
点赞
踩
20

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫