特征融合论文《DeepFuse:A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs》

最新推荐文章于 2024-03-15 18:22:34 发布

VIP文章 Najlepszy

最新推荐文章于 2024-03-15 18:22:34 发布

阅读量6.4k

点赞数 4

分类专栏： LDR2HDR

本文链接：https://blog.csdn.net/Najlepszy/article/details/88326517

版权

再接再厉。本文：https://arxiv.org/abs/1712.07384
ECCV2018那篇前景变换的我要是看懂代码了可以把代码简单的介绍下放上来，那个真的厉害。
Abstract
本文通过一种深度学习方法来融合静态的多曝光度的图片。现有的多曝光度图像融合技术使用手动计算的特征(hand-crafted features)来融合输入的图片序列。然而对于不同的输入情况，这种低级的手动计算特征并不稳健。除此之外，对于极端的曝光图片组合，这些特征的表现能力就更糟了。因此，我们需要一种方法可以对不同的输入情况都保持稳定的性能，并且可以在不引入伪影的时候处理极端的曝光情况。而深度学习方法对输入条件具有稳健性，并且在监督学习时表现惊人。然而，用深度学习方法进行多曝光度融合(MEF)的限制因素是：缺乏大量的训练数据以及作为监督的ground truth。为了解决上述问题，我们生成了一个含有多张曝光度的图片的组合(stacks)的数据集用于训练,并减少了对ground truth图片的需求，我们提出一种无监督的MEF深度学习框架，利用无参考质量度量(no-reference quality metric)来作为损失函数。我们提出的方法通过使用新型CNN架构来学习融合操作，而无需使用ground truth图像。该模型通过融合从不同图像中提取的低级特征，以生成没有伪影的，视觉上可以接受的结果。
本文通过进行广泛的定量和定性的评估，并表明所提出的技术优于现有的SOTA的方法。

一、简介
HDR可提供类似人眼可见的景色，从而避免过亮或者过暗的区域。常见生成HDR的方法就是多曝光度图片融合(MEF),通过将不同曝光度的LDR图片融合生成一张HDR的图片。本文便使用这一方法。许多MEF方法在融合曝光度较相似的LDR图片时效果明显（比如曝光度差异值为1）。因此，它需要通过更多不同曝光度的LDR图像以获得整个场景的动态范围，这样就需要更大的存储空间、更长的处理时间和更好的性能。原则上，长曝光时间的图片在较暗区域具有更好的颜色和结构信息；短曝光时间的图片在明亮的区域中会有更好的颜色和结构信息。虽然融合极端的曝光图像实际上更具有吸引力，但是它也非常困难，因为现有的方法无法保证均匀的亮度。
在本文我们把LDR堆栈看做我们算法的输入。
在本文中，我们提出一种基于数据驱动的方法来融合静态的多曝光度的图片。初始的层中包括一系列的卷积核来提取不同输入图片的低级特征。输入图像的低级特征被用来融合生成最后的结果。整个网络端到端训练，使用无参考图片的质量损失函数。
我们通过一个巨大的含有不同类别的图片堆栈（室内/室外、白天/夜晚、侧光/背光）来训练并测试我们的模型。此外，我们的模型不需要对不同的输入图像进行参数微调。通过广泛的实验评估，我们证明现有方法要由于其他SOTA的方法。
贡献点如下：
1、提出基于无监督的图片融合的方法来融合曝光度堆栈的图片。
2、提出新的基准数据集，可用于比较MEF的性能。
3、通过广泛的实验评估与和7个SOTA的算法进行对比学习。
二、相关工作
一般融合算法都是纯数学方法（基本在opencv库都能找到2333），而通过ELM(Extreme Learning Machine,极限学习机)可以将饱和度，曝光度，和对比度反馈到回归量中以估计每个像素的重要性。我们通过数据来学习原始像素中的表示，而不是使用手工计算出来的算子什么的。
三、基于CNN的特征融合算法
设 $I$ 是输入的LDR图片对，则 $O (I)$ 是融合操作后的结果， $F_W(I)$ 时前馈函数。由于输出结果 $O (I)$ 在MEF问题中是缺失的，因此我们无法使用列入MSE loss或者其他需要参考图片的loss函数。因此，我们把图片质量的度量MEF SSIM作为损失函数进行优化。MEF SSIM是基于SSIM框架提出来的。它测量的是结构完整性的损失，比如照度的一致性。
本实验结构如下所示。输入的曝光度堆栈被转换成 $Y C b C r$ 通道的数据。CNN被用于融合输入图片的照度通道——图像结构的细节在照度通道被显示出来，并且亮度通道中的亮度变化比色度通道要明显。将亮度通道通过3.3的方法与色度通道(Cb和Cr)组合。以下小节中介绍了网络架构，损失函数以及训练过程。
在这里插入图片描述
3.1 DeepFuse CNN
图像融合由于发生在像素域，CNN架构在很大程度上没有利用CNN的特征学习的能力。下图是图像融合的网络结构。

上图的网络结构包括以下三个层：特征提取层、特征融合层、重建图像层。
欠曝光图像 $Y_1$ 和过曝光图像 $Y_2$ 通过不同的通道输入，而特征提取层(C11与C21、C12与C22)通过5x5的卷积核来提取低层特征（比如边缘特征或角点特征），且C11与C12、C21与C22共用相同的权重信息。
这种结构优势有三：
1、网络可以从输入图片对中学习到相同的图片特征，因此可以通过简单的融合方法进行融合。意思是，添加图像1的第一特征图（F11）和图像2的第一特征图（F21），并且该处理也应用于剩余的特征图。此外，添加特征可以比其他组合特征选择更好的性能（下表）。在特征添加中，来自两个图像的类似特征类型被融合在一起。可选地，可以选择连接特征，通过这样做，网络必须计算合并它们的权重。在我们的实验中，我们观察到特征级联也可以通过增加训练迭代次数，增加C3之后的卷积核和层数来实现类似的结果。这是可以理解的，因为网络需要更多次迭代来计算出适当的融合权重。在本文的锁定权重设置中，我们正在强制网络学习对亮度变化不变的卷积核。通过可视化学习的卷积核观察到这一点（见下图）。在绑定权重的情况下，很少有高活化过滤器具有中心环绕感受野。这些卷积核已经学会从邻域中去除均值，从而有效地使特征亮度不变。
在这里插入图片描述

最低0.47元/天解锁文章

Najlepszy

关注

4
点赞
踩
32

收藏

觉得还不错? 一键收藏
1
评论
特征融合论文《DeepFuse:A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs》

再接再厉。本文：https://arxiv.org/abs/1712.07384ECCV2018那篇前景变换的我要是看懂代码了可以把代码简单的介绍下放上来，那个真的厉害。
复制链接

扫一扫