【Deepfuse】读论文

最新推荐文章于 2024-03-02 18:17:16 发布

蜜桃味の小Daisy

最新推荐文章于 2024-03-02 18:17:16 发布

阅读量719

点赞数 17

分类专栏：图像融合【读论文】文章标签：人工智能深度学习图像处理

本文链接：https://blog.csdn.net/Pineapple_Daisy/article/details/135717825

版权

图像融合【读论文】专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了一种基于深度学习的多曝光图像融合算法，提出了一种无监督的MEF框架，用于处理HDR生成。通过CNN架构提取和融合图像特征，论文还创建了一个新的基准数据集，并与7种先进算法进行了比较。关键概念包括HDR、曝光、曝光偏差和MEFSSIM评估。

摘要由CSDN通过智能技术生成

论文来源：2017 ICCV
- ICCV 的全称是 IEEE International Conference on Computer Vision，即国际计算机视觉大会。
  - 每两年召开一次，奇数年。
    - https://openaccess.thecvf.com/ICCV2017
    - 论文链接：https://arxiv.org/abs/1712.07384

引言
- 提出了一种基于深度学习架构，用于融合多曝光图像的算法
  - 由于没有足够的数据集供其使用，所以该篇论文提出了无监督的MEF（多曝光融合）深度学习框架。
    - 首先引入HDRI的概念，高动态范围成像（HDRI）是一种成像技术，有助于在困难的照明条件下拍摄更好看的照片。那HDR具体是什么意思呢？
      - HDRI的全称是High Dynamic Range Imaging。
      - 有助于存储人眼可感知的所有范围的光（或亮度），而不是使用相机实现的有限范围。场景中的所有对象在HDRI中看起来更好和清晰，否则会不饱和（太暗或太亮）。
        
        HDR——即高动态范围图像(High-Dynamic Range，简称HDR)，相比普通的图像，可以提供更多的动态范围和图像细节，根据不同的曝光时间的LDR(Low-Dynamic Range)图像，利用每个曝光时间相对应最佳细节的LDR图像来合成最终HDR图像，能够更好的反映出真实环境中的视觉效果。
        
        说白了，就是一张图片尽可能地同时显示最亮和最暗的地方。拍出一张前景后景都曝光正常的日出风光照。由于相机“动态范围”的限制致使一些光比较大的画面，要么欠曝要么过曝，要解决这个问题，可以拍出几张不同曝光的照片，然后把每张曝光正常的部分保留，合成一张，就得到一张高动态范围的照片。
      - HDR是一种存储图像的格式。
        
        LDR = Low Dynamic Range 低动态范围 HDR = High Dynamic Range 高动态范围
        
        LDR 定义如下： 8位精度，2的八次方0-255 单通道0-1 常用LDR图片储存格式：jpg/png等应用：拾色器、一般的图片、电脑屏幕
        
        HDR 定义如下：远高于8位的精度单通道可超过1 常用的HDR图片储存格式：hdr/tif/exr/raw等应用：HDRI、真实世界
    - 用于HDR图像生成的流行方法被称为多曝光融合（MEF），其中，具有变化曝光的一组静态LDR图像（进一步被称为曝光堆栈）被融合成单个HDR图像。所提出的方法福尔斯（Fuse）属于这一类。
    - - 那么，曝光大家都听说过，可是具体的定义是什么呢？
        曝光是指用来计算从景物到达相机的光通量大小的物理量，图像传感器只有获得正确的曝光，才能得到高质量的照片；曝光也是指被摄影物体发出或反射的光线，通过照相机镜头投射到感光片上，使之发生化学或物理变化，产生显影的过程。
        
        像质客观评测—曝光偏差Exposure error 测试标准：曝光偏差=|实际曝光值-122|
    - 大多数MEF算法在曝光堆栈中的每个LDR图像之间的曝光偏差差为最小1时工作得更好。因此，它们需要曝光堆栈中的更多LDR图像（通常多于2个图像）来捕获场景的整个动态范围。这导致更多的存储需求、处理时间和功率。原则上，长曝光图像（以高曝光时间捕获的图像）在暗区域中具有更好的颜色和结构信息，并且短曝光图像（以较少曝光时间捕获的图像）在亮区域中具有更好的颜色和结构信息。虽然融合极端曝光图像实际上更有吸引力，但它具有相当大的挑战性（现有方法无法在图像上保持均匀的亮度）。此外，应该注意的是，拍摄更多的照片会增加功率、捕获时间和计算时间要求。因此，我们建议使用曝光包围图像对作为我们算法的输入。
    - 问题又来了，包围曝光又是什么意思呢？
    - 包围曝光：是相机内置的一项功能，它可以设定曝光范围、顺序、拍摄数量，当你设置完毕这后，相机会根据你的设置自动拍摄出若干张曝光值间隔范围相等的照片。
  - 在这项工作中，论文提出了一个数据驱动的学习方法融合包围曝光静态图像对。这是第一个使用深度CNN架构进行曝光融合的工作。初始层由一组过滤器组成，用于从每个输入图像对中提取共同的低级特征。这些低级别的输入图像对的特征进行融合重建的最终结果。整个网络使用无参考图像质量损失函数进行端到端训练。
  - 论文的主要贡献如下：
  - 1.提出了一种基于CNN的无监督图像融合算法，用于融合曝光堆叠的静态图像对。
  - 2.一个新的基准数据集，可用于比较各种MEF方法。
  - 3.针对各种自然图像的7种最先进的算法进行了广泛的实验评估和比较研究。
方法
1.方法示意
论文提出了一个使用CNN的图像融合框架。它学习输入和输出之间的复杂映射与足够的训练数据的帮助。CNN通过优化损失函数来学习模型参数，以便预测尽可能接近地面实况的结果。例如，让我们假设输入x通过某种复杂变换f映射到输出y。CNN可以被训练来估计函数f，该函数f使期望输出y和获得的输出yˆ之间的差最小化。使用损失函数（诸如均方误差函数）来计算y和yˆ之间的距离。最小化该损失函数导致对所需映射函数的更好估计。
- 让我们将输入曝光序列和融合算子表示为I和O（I）。我们用前馈过程FW（I）来模拟O（I）。这里，F表示网络架构，W表示通过最小化损失函数学习的权重。由于MEF问题不存在期望输出O（I），因此不能使用平方误差损失或任何其他完全参考误差度量。相反，我们使用Ma等人[15]提出的无参考图像质量度量MEF SSIM作为损失函数。 MEF SSIM基于结构相似性指数度量（SSIM）框架。它利用输入图像序列中单个像素周围的补丁的统计信息与结果进行比较。它测量结构完整性的损失以及多个尺度的亮度一致性。

图1 作者提出的方法示意图
问题又来了，图中写的RGB转YCbCr，那什么是YCbCr？我查了一下资料。【图像处理】RGB、YUV (YCbCr) 图像表示详解-CSDN博客
YUV（YCbCr） RGB大约可以表示一千六百七十万种颜色，而人眼大约可以分辨一千万种颜色。因此使用RGB来储存和传输图像会造成很大的空间浪费。为了克服这一问题，YUV于上世纪50年代提出，用于储存和传输电视信号。
RGB颜色空间是将颜色分解为红、绿、蓝三原色，这是一种加色模型，常用于计算机图形学和显示设备上。在RGB颜色空间中，每个像素由红、绿、蓝三个通道组成。 YUV和YCbCr颜色空间是一种亮度-色度模型，主要用于视频信号的编码和传输。其中，Y表示亮度（Luma），U和V或Cb和Cr表示色度（Chroma）。
- 在YUV颜色空间中，Y通道只包含亮度信息，U和V通道包含颜色信息。在YUV颜色空间中，对于一幅图像，只需要传输亮度信息Y，就可以保证图像的主要内容传输。色度信息U和V可以通过亮度信息Y来计算，从而实现压缩。 YCbCr颜色空间是YUV颜色空间的一种变体，常用于数字图像和视频处理中。YCbCr颜色空间中，Y通道和YUV颜色空间中的Y通道一样，表示亮度信息，Cb和Cr通道表示色度信息。与YUV不同的是，Cb和Cr通道都经过了一定程度的色度子采样，以减少图像数据的传输量和存储空间。
  - RGB->YCbCr RGB颜色空间转换成YCbCr颜色空间公式如下：
  - Y = 0.299 R + 0.587 G + 0.114 B
  - C b = − 0.1687 R − 0.3313 G + 0.5 B
  - C r = 0.5 R − 0.4187 G − 0.0813 B
  - YCbCr->RGB：
  - R = Y + 1.402 C r
  - G = Y − 0.344 C b − 0.714 C r
  - B = Y + 1.772 C b
  - Y通道代表亮度，其取值范围为0到255。而Cb和Cr通道代表色度，其取值范围为-128到127，在具体使用时通常需要加上128的偏移量，使其取值范围变为0到255，与Y通道一致。

2.DeepFuse网络框架
- CNN的学习能力在很大程度上受到结构和损失函数的正确选择的影响。一个简单而幼稚的架构是将一系列卷积层以顺序方式连接起来。该架构的输入将是以第三维堆叠的曝光图像对。由于融合发生在像素域本身，因此这种类型的架构在很大程度上没有利用CNN的特征学习能力。
  - 图2 用于图像融合的网络结构
  - 输入大小为h×w的图像曝光堆栈。共享相同权重的预融合层C1和C2从输入图像中提取低级特征。通过融合层将输入图像的特征对融合为单个特征。融合特征被输入到重构层以生成融合图像Yfused。
    - 该体系结构由特征提取层、融合层和重构层三部分组成。如图2所示，曝光不足和曝光过度图像（Y1和Y2）被输入到单独的通道（通道1由C11和C21组成，通道2由C12和C22组成）。第一层（C11和C12）包含5 × 5滤波器（卷积核），用于提取边缘和角落等低级特征。融合前通道的权重是绑定的，C11和C12（C21和C22）共享相同的权重。这种架构的优势有三个方面：首先，我们迫使网络学习输入对的相同特征。也就是说，F11和F21是相同的特征类型。因此，我们可以简单地通过融合层将各个特征图联合起来。也就是说，图像1的第一特征图（F11）和图像2的第一特征图（F21）被相加，并且该处理也被应用于剩余的特征图。此外，相加这些特征比其他组合特性性能更好（参见表1）。在特征添加中，来自两个图像的相似特征类型被融合在一起。可选地，可以选择连接特征，通过这样做，网络必须计算出合并它们的权重。在我们的实验中，我们观察到特征拼接也可以通过增加训练迭代次数，增加C3之后的滤波器和层的数量来实现类似的结果。这是可以理解的，因为网络需要更多的迭代次数来计算适当的融合权重。在这种绑定权重设置中，我们强制网络学习对亮度变化不敏感的滤波器。这可以通过可视化学习的滤波器来观察（见图8）。在捆绑权重的情况下，很少有高激活滤波器具有中心环绕感受野（通常在视网膜中观察到）。这些滤波器已经学会了从邻域中减去均值，从而有效地使特征亮度不变。第二，可学习的过滤器的数量减少了一半。第三，由于网络参数少，收敛速度快。通过合并层融合从C21和C22获得的特征。然后，融合层的结果通过另一组卷积层（C3、C4和C5），以从融合特征重构最终结果（Yfused）。
      - 由于个人的理解，查了一下张量，这里再介绍一下张量。
      - 张量有四个定义：张量是多维数组张量是一种不随坐标系的改变而改变的几何对象张量是向量和余向量，不会随着坐标系的改变而改变张量是多重线性映射，即
      - 将标量 (只有大小没有方向的数) 定义为 0 阶张量
        
        将一维数组定义为一阶张量，如下所示
        
        将多个一维数组的拼接，即矩阵定义为二阶张量
        
        将多个矩阵的叠加定义为三阶张量：
        
        将三阶张量排列为一个数组，数组的元素是三阶张量，如果我们将三阶张量记为
        
        那么多个元素组成的数组就定义为四阶张量
        
        将四阶张量拼接，组成三阶张量的矩阵，称为五阶张量
      - 表1.混合运算符的选择：使用不同特征混合运算训练的CNN生成的23个测试图像的平均MEF SSIM分数。最高分数以粗体突出显示。
损失函数
通过MEF SSIM图像质量测量[15]在不使用参考图像的情况下计算损失。设{yk}={yk| k= 1，2}表示在像素位置p处从输入图像对提取的图像块，并且yf表示在相同位置p处从CNN输出融合图像提取的块。目标是计算分数以定义给定yk个输入块和yf个融合图像块的融合性能。在SSIM [27]框架中，任何块都可以使用三个组件进行建模：结构（s），亮度（l）和对比度（c）。
- - ‖·‖是块的l2范数，μyk是yk的平均值，~yk是减去均值的块。由于较高的对比度值意味着较好的图像，因此结果的期望对比度值Cˆ被取为{ck}的最高对比度值，（即）
  - - 期望结果的结构（sˆ）通过如下输入块的结构的加权和来获得，
    - - 其中加权函数基于输入块之间的结构一致性来分配权重。当块具有不同的结构成分时，加权函数为块分配相等的权重。在另一种情况下，当所有输入块具有相似的结构时，具有高对比度的块被赋予更多的权重，因为它对失真更鲁棒。将估计出的sˆ和cˆ组合以产生期望的结果块yˆ，
      - 由于局部块中的亮度比较是不重要的，因此从上述等式中丢弃亮度分量。在较低的空间分辨率下比较亮度不能反映全局亮度一致性。相反，在多个尺度下执行该操作将有效地捕获较粗尺度下的全局亮度一致性和较细尺度下的局部结构变化。使用SSIM框架计算像素p的最终图像质量分数，
        
        其中，σ2yˆyf是方差，σyˆyf是σ 2yˆ和σ 2yf之间的协方差。
        
        总损失计算为，
        
        其中N是图像中像素的总数，P是输入图像中所有像素的集合。计算的损失被反向传播以训练网络。 MEF SSIM的性能较好是由于其目标函数最大化融合图像与输入图像之间的结构一致性。
实验
将所提出的算法与七种性能最好的MEF算法进行比较，（1）Mertens 09 ，（2）Li 13，（3）Li 12，（4）Ma 15 ，（5）Raman 11 ，（6）Shen 11和（7）Guo 17 。
表2 MEF SSIM评分的不同方法对Deepcraft（DF）的测试图像。粗体值指示该对应列算法比该行图像序列的其他算法的最高分数。
实验就不展开细看了。开展下一篇啦。完结撒花！
我发博客的初衷其实就是为了督促自己学习，希望能陪伴大家一路同行。大家加油！