Deep Joint Demosaicking and Denoising

最新推荐文章于 2024-01-08 11:56:58 发布

Adagrad

最新推荐文章于 2024-01-08 11:56:58 发布

阅读量465

点赞数

分类专栏： ISP DeBayer paper 文章标签：人工智能

本文链接：https://blog.csdn.net/u013049912/article/details/133885306

版权

paper 同时被 3 个专栏收录

61 篇文章 8 订阅

订阅专栏

ISP

4 篇文章 0 订阅

订阅专栏

DeBayer

3 篇文章 0 订阅

订阅专栏

Abstract

去马赛克和去噪是数字成像流程的关键第一阶段，但它们也是一个严重不适定的问题，从单个噪声测量中推断出每个像素的三个颜色值。早期的方法依赖于手工制作的滤波器或先验，并且在硬情况下（例如摩尔纹或薄边缘）仍然表现出令人不安的视觉伪影。我们引入了一种新的数据驱动方法来应对这些挑战：我们在大型图像语料库上训练深度神经网络，而不是使用手动调整的滤波器。虽然深度学习已经取得了巨大的成功，但其使用现有训练数据集的简单应用并不能为我们的问题提供令人满意的结果，因为这些数据集缺乏困难的案例。为了创建更好的训练集，我们提出了识别困难patch的指标以及挖掘此类patch的社区照片的技术。我们的实验表明，该网络和训练过程在噪声和无噪声数据上都优于最先进的技术。此外，我们的算法比以前性能最佳的技术快一个数量级。

1 Introduction

去马赛克和去噪同时是大多数数码相机流程中至关重要的第一步。它们本质上是不适定的重建问题：至少三分之二的数据丢失，现有数据被噪声破坏。此外，由于红色、绿色和蓝色通道在不同位置以不同速率采样，因此会出现复杂的混叠问题。虽然大多数图像区域很容易解决，但罕见的具有挑战性的区域仍然可能导致灾难性的故障和视觉上令人不安的伪像，例如棋盘图案、边缘周围的拉链和摩尔纹。

对于模块化，去马赛克和去噪通常是独立且连续地解决的。不幸的是，这会导致错误累积，因为去马赛克需要处理不可靠的样本，并且去马赛克会受到去马赛克引入的非线性和可变的每像素噪声的影响。人们早就认识到，利用自然图像的规律性是消除不确定性的关键。传统技术将手工启发式硬编码到局部过滤器中 [Cok 1987；拉罗什和普雷斯科特 1994；布阿德斯等人。 2009]。海德等人 [2014]提出了一种通过将非局部自然图像先验嵌入到优化方法中来进行去噪和去马赛克的联合解决方案。然而，他们的先验仍然是手工设计的，优化和非局部先验的结合导致计算成本急剧增加。

相比之下，我们使用数据驱动的局部过滤方法联合解决去马赛克和去噪问题，以提高效率。我们在大量真实数据上训练我们的模型，以最佳地利用自然图像中发现的规律。我们以深度学习和卷积神经网络的成功为基础，例如[LeCun 等人2015]。虽然之前已经探索过数据驱动的局部过滤 [Klatzer 等人2016年；田等人2014年； Lansel 和 Wandell 2011]，组装高质量的训练集始终是关键，我们发现去马赛克和去噪的特性使这成为一个挑战，特别是因为灾难性的硬输入很少见，而且标准图像指标无法很好地捕获显着的伪像。另一个挑战是深度学习通常需要训练一个新网络或针对问题的稍微不同的实例对现有网络进行微调。这对于传感器噪声（其强度随 ISO 设置和其他成像特性而变化）等问题尤其成问题。

我们对联合去噪-去马赛克的贡献是能够处理各种噪声水平的卷积神经网络，以及构建训练集的程序，该训练集富含容易出现摩尔纹和伪影的具有挑战性的图像。我们证明，我们的方法能够比以前的工作获得更高质量的结果，并且在 CPU 和 GPU 上运行得更快。

2 Related Work

去马赛克是一个经过充分研究的问题，大多数算法在图像的平坦区域中表现良好。但所有这些都倾向于在坚固的边缘和纹理区域周围挣扎（图 1）。这会导致明显的伪像，例如拉链、彩色摩尔纹和细节丢失。许多方法派生出边缘自适应插值方案来控制此类伪影 [Laroche 和 Prescott 1994]。一种流行的解决方案是设计非线性滤波器，避免在强局部边缘上进行插值[Li et al. 2008]。去马赛克的关键要素是利用跨通道依赖性来恢复超出每个通道奈奎斯特频率的细节。颜色通道之间的相关性可以通过平滑色调先验 [Cok 1987] 来捕获，其中颜色比率或差异被建模为平滑变化的信号。基于这种启发式的算法从亮度分量（即绿色通道）开始顺序插值通道[Zhang et al. 2009年；张和谭 2004]。然后，去马赛克的绿色通道用于指导色度插值。在这些技术中，当平滑色调启发式不成立时，图像质量会受到不利影响，从而导致假色（图 1）。平川等人[2005] 对颜色差异使用中值滤波来减轻影响。但这种后处理技术存在过度模糊等缺点，并不能从根本上改变色彩摩尔纹问题。我们建议用一种机器取代手工制作的过滤器，该机器可以联合插值三个颜色通道，完全可训练，并且可以学习直接从自然图像中消除容易出错的模式，而无需依赖硬编码启发式。

Self-similarity and data-driven demosaicking

最近的方法通过利用自然图像中的局部自相似性克服了去马赛克的不适定性，并填充了相似相邻斑块中缺失的颜色信息[Buades et al. 2009年；张等人2011]。他等人[2012] 使用 SVM 回归来在线学习针对输入图像定制的去马赛克过程。解决去马赛克问题的另一种方法是采用机器学习。关等人 [2004]采用分类方法来选择具有手工设计特征的两个离散插值方向之一。一些技术采用具有较小空间足迹的完全连接的浅层神经网络架构 [Go 等人2000； Kapah 和 Hel-Or 2000]。早期的数据驱动技术使用简单的架构和硬编码启发式方法。他们接受了最多数百张图像的小型数据集的训练，并且与最先进的技术相比并不理想。这归因于缺乏适当的训练数据集[Zhang et al.。 2009]。基于学习的方法可以对新的传感器设计和替代镶嵌图案进行实验[Lansel 和 Wandell 2011；田等人 2014]。在这项工作中，我们根据基线去马赛克方法产生的伪像的严重程度，从在线照片集中收集了数百万个困难补丁的数据集。我们直接从输入马赛克到最终彩色图像训练模型，并实现最先进的质量。

Joint denoising and demosaicking

由于噪声的存在，去马赛克变得更加复杂。噪声数据中边缘方向的估计不太可靠，这会导致去马赛克图像中出现明显的伪影。依次执行这些步骤的技术通常从去噪开始 [Park 等人2009]。 Akiyama 等人是一个值得注意的例外。 [2015] 首先对被视为四通道四分之一分辨率图像的拜耳阵列进行降噪。最近的尝试显示了联合方法的优势 [Hirakawa 和 Parks 2006；康达特和摩萨台 2012]。 Jeon 和 Dubois [2013] 针对离散噪声水平优化了一组滤波器。 Heide 等人 [2014] 使用具有自相似先验的全局原对偶优化。最近邻搜索和算法的迭代性质使其速度缓慢且有些不切实际。卡沙比等人 [2014] 展示了一种推广到非拜耳镶嵌图案的学习方法。克拉泽等人[2016]使用顺序能量最小化方法，该方法可以解释为具有可训练激活函数的卷积网络，并且中间层被限制为输出彩色图像。克拉泽等人可以从数据中学习噪声模型，但该模型是针对单个噪声级别量身定制的，并在训练后修复。相反，我们公开运行时参数并训练我们的网络，使其适应各种噪声水平。

Neural networks for image processing

卷积神经网络 (CNN) 彻底改变了计算机视觉中的分类问题 [Krizhevsky et al., 2017]。 2012年；塞格迪等人。 2015年；西蒙扬和齐瑟曼 2014]。它们也迅速成为图像处理任务中的主流工具，例如像素级对象分割 [Long 等人。 2015年；巴德里纳拉亚南等人。 2015年；能等人。 2015]，单个图像的深度和法线估计[Eigen et al.2015] 2014年；王等人。 2015]，视图插值 [Flynn 等人。 2016]，反卷积[Xu 等人。 2014]，滤波器近似[Xu 等人。 2015]，图像着色[Cheng 等人。 2015年；张等人。 2016年；拉尔森等人。 2016年；饭冢等人。 2016]，风格转移[Gatys 等人。 2016]，光流[Dosovitskiy 等人。 2015a]，图像修复 [Eigen 等人。 2013年；帕塔克等人。 2016]和图像合成[Dosovitskiy 等人。 2015b]。

3 Convolutional Neural Network for Joint Demosaicking and Demoising

传统上，去马赛克和去噪是通过非线性滤波器设计来解决的，结合了有关通道间和通道内相关性、边缘周围行为的先前启发式方法，以及利用图像内块相似性。在这种情况下，卷积网络似乎是解决该问题的自然选择。首先，它能够发现数据中的自然相关性。其次，该网络可以代表许多先前技术实现的管道的超集，同时对其所有参数进行联合优化以最小化单个目标。

仅靠网络不足以解决去噪/去马赛克问题。我们将在第 4 节中看到，训练数据的选择具有至关重要的影响，特别是因为困难的输入很少见，但却会导致视觉上令人不安的伪影。

我们将联合去噪和去马赛克视为一个监督学习问题：我们在一组已知所需输出的输入测量上训练我们的算法。我们从数百万张 sRGB 图像创建训练集，通过每个像素省略两个颜色通道并添加噪声来生成相应的马赛克阵列。然后，我们构建一个卷积神经网络并以端到端的方式对其进行训练。输入是每个像素一个通道的镶嵌阵列 M 和噪声水平的估计 σ；输出是相同大小的图像 O，每个像素有一个 RGB 三元组。我们首先重点讨论去马赛克，然后讨论噪声。

我们提出的架构。网络第一层将Bayer图像中的2×2块打包成4D向量，以恢复平移不变性并加快处理速度。我们用噪声参数 σ 来增强每个向量以形成 5D 向量。然后，一系列卷积层对图像进行过滤以插入缺失的颜色值。我们最终将 12 个颜色样本解压回原始像素网格，并连接输入马赛克的蒙版副本。这次我们以全分辨率执行最后一组卷积以产生最终的特征。我们将它们线性组合以产生去马赛克输出。

3.1 Network architecture

总体而言，我们选择了与 [Simonyan 和 Zisserman 2014] 最相似的薄（小 W）、深（大 D）架构。我们尝试了深度从 D = 5 到 20 的网络。对于每个卷积层，我们使用空间足迹 K = 3 的内核。因此，该网络实现了感受野为 2D(K−1)+K+1 的非线性滤波器相对于输入分辨率的 K+1 像素。我们将每个卷积层的输入每侧填充 K−1 2 个像素，以便空间维度不会随着深度而减小。因此，网络还学习边界条件，并且不会减小输入图像的尺寸，如果我们只保留卷积的有效部分，就会发生这种情况。虽然可以使用直接应用于输入马赛克的等式（4）的颜色掩模来以全分辨率处理图像（§5），但它会产生更高的计算成本，因为网络随后处理四倍的像素。这也减少了最后一层的感受野。我们没有发现这种替代方法会显着影响去噪/去马赛克性能。

3.2 Joint denoising with multiple noise levels

线性空间中泊松噪声和高斯噪声的组合可以准确地模拟相机噪声 [Foi et al. 2008]。由于我们使用白平衡伽马校正 sRGB 图像，因此我们使用 [Jeon 和 Dubois 2013] 推荐的加性高斯噪声模型。

我们希望减少针对每个噪声级别对专用网络的需求。相反，我们在连续范围的噪声水平上训练单个网络，并明确地将噪声水平作为输入参数添加到网络中。在训练时，对于每个新输入 M，我们随机采样噪声水平 σ ∈ [σ1, σ2]。在将 M 输入到网络之前，我们用方差为 σ2 的中心加性高斯噪声来破坏 M。我们还为网络提供噪声水平 σ 的标量估计作为额外输入（图 2）。实际上，由于相机模型和设置与原始数据一起存储，并且可以依赖离线噪声校准，因此噪声水平通常是已知的并用于通知去马赛克。为了将这些新信息合并到卷积架构中，我们在空间上复制噪声级别以匹配第一层 F0 的输入维度，并将其连接为额外通道：F0 现在有 5 个通道（图 2）。 [伯格等人2012]在非卷积设置中使用了类似的仅去噪方法。

3.3 Training procedure

4 Training Data

当在标准数据集上进行训练时，我们的神经网络平均运行良好，但在许多困难情况下会产生令人不安的伪影，这是去马赛克和去噪的常见问题。这些挑战是由于两个重要问题造成的。首先，困难案例很少见，并且会被更常见的简单区域所淡化。其次，L2 或 PSNR 等指标无法注意到对人类来说很明显的去马赛克伪影。

我们现在提出了一种用于检测具有挑战性的斑块的算法，并使用基于人类视觉差异预测器的自适应训练和优化用于检测摩尔纹伪影的新指标相结合的组合来集中训练它们。

我们首先在标准数据集上训练一个网络，并使用它对数百万张真实照片进行去马赛克和去噪，以便挖掘困难情况。我们寻找网络经常遗漏的两类伪影：亮度伪影和颜色摩尔纹。受到课程学习的启发 [Bengio 等人2009]，我们自适应地构建了一个由这些容易出现伪影的补丁组成的新数据集。我们使用该数据集从头开始微调或训练网络。这提高了模型在困难情况下的性能，并且可以被视为重新加权损失函数，为容易出现伪影的补丁赋予更多权重。下面，我们讨论我们的选择策略和我们使用的指标。

4.1 Ground-truth and mosaicked image

我们首先从网络上下载大量 sRGB 图像来生成真实数据。我们从每个图像创建一个马赛克，添加噪声，并使用这对图像进行训练。我们将选择范围限制为至少 16 Mpix 的图像，以支持更高质量的图像。为了避免网络因首先创建下载图像的相机管道而导致失真，我们使用双三次插值将其下采样 4 倍，并将其用作地面实况。虽然更复杂的下采样技术是可能的[Khashabi 等人2014]，它们对我们的环境没有帮助：我们的训练图像是 JPEG 压缩的，并且来自未知和不同的来源。

我们根据 sRGB 图像的拜耳模式，通过每个像素仅保留一个颜色通道来创建马赛克和噪声图像 M。我们还通过 90° 步长的随机旋转、随机的左右镜像以及任一维度的 1 像素移位副本来增强训练集中的补丁。这将训练数据增加了 32 倍，并提供了一些旋转和平移不变性。

4.2 Challenging patches are rare

公开可用的去马赛克数据集包含数百张图像，这不足以训练深度网络的数千个参数。相反，我们使用 Imagenet 中的 130 万张图像来训练我们的第一个网络 [Deng 等人2009] 和来自 MirFlickr 的 100 万张图像 [Huiskes 和 Lew 2008]。虽然该网络与之前工作的 PSNR 统计数据相匹配，但仔细检查会发现薄边缘和复杂纹理附近存在伪影（见图 3）。大量的训练样本并不能保证令人信服的去马赛克。

随机选择的图像主要由平滑斑块组成，因为它们在自然图像中占主导地位[Levin et al. 2012]。具有挑战性的结构只占一小部分，如图 4 中补丁分布的尾部所示。平滑补丁占据了训练时间的大部分，尽管这种情况下的结果在感知上已经与地面真实情况无法区分。我们通过组装具有更困难补丁的训练集来弥补这一点。

4.3 Mining hard patches

我们通过将第一个网络（在 Imagenet 上训练）应用于从网络下载的数百万个新补丁并保留故障案例，创建了一个困难补丁数据库。我们检测带来两个特定挑战的斑块：薄结构（例如拉链）周围的亮度伪影和彩色摩尔纹。我们使用单独的指标来检测这些情况。拒绝琐碎的案例可以有效地重新权衡具有挑战性的损失函数（方程（6））。

Salient luminance artifacts

我们首先使用基于感知的 HDR-VDP2 [Mantiuk 等人2011]检测细边缘周围的亮度伪影。我们发现 PSNR、SSIM、S-CIELAB 等标准指标无法像 HDR-VDP2 那样令人信服地捕获感知伪影。经验表明，它与人类对更简单的去马赛克的判断有很好的相关性 [Sergej 和 Mantiuk 2014]。它将局部伪影的可见性以及整体图像质量与参考进行比较。它模拟人类视觉系统的响应，包括光谱灵敏度、亮度适应和频率掩蔽等现象，并根据对比灵敏度测量进行校准。对于每个新图像，我们使用预先训练的网络应用去马赛克。然后，我们使用 HDRVDP 将网络的输出与真实情况进行比较，并计算每个像素的伪影概率。我们使用高斯模糊 (σ = 3) 平滑概率图，并在伪影概率超过 0.1 时提取最多 30 个局部最大值。这导致 1,393,107 15.2 Mpix 图像（约占总像素的 3%）中出现 2,489,180 个有问题的补丁。我们调整了指标以近似人类从 1m 距离观看 2560 × 1600 30 英寸 sRGB 显示器的响应。 HDR-VDP 检测高频亮度伪影（图 5a）；在这些补丁上训练我们的网络产生了显着改善的结果。然而，该指标遗漏了颜色摩尔纹伪影，因为它仅分析亮度通道（图 5，底行）。

Moir´e and aliasing

莫尔条纹是由混叠引起的干涉图案。接近或小于采样网格分辨率的重复细节可能会产生人为的低频模式。马赛克图像的颜色通道存在空间偏移；由于颜色样本的错误插值，去马赛克后莫尔条纹显示为分散注意力的假色带（图 6b）。在傅里叶域中可以最好地理解混叠的影响，因为它引入了不需要的频率。我们通过测量从真实图像 I 到去马赛克图像 O 图像的频率内容的变化来量化摩尔纹伪影。我们首先将 I 和 O 转换到 Lab 空间，并分别计算每个通道 FI(ω) 和 FO(ω) 的二维傅里叶变换。然后，我们计算去马赛克图像相对于每个频率的输入的增益。

我们仅比较低于 r 的频率的增益，以减轻边界效应和高频噪声。我们使用高斯模糊平滑增益图，如果所有通道和频率的最大增益值超过阈值 t，则将补丁标记为混叠。对于 128 × 128 块，我们将低通半径 r = 0.95π、高斯核的标准差设置为 3，增益图阈值设置为 t = 2。此标准始终选择容易出现摩尔纹的块。图 6 显示了混叠补丁的增益图。

这些莫尔条纹非常罕见；它们位于自然斑块分布的尾部末端（图 4）。我们发现 200 万个图像补丁中有 0.05% 的补丁存在锯齿。尽管如此，这些伪像仍然很重要，因为它们仍然会影响图像的大面积（例如 128 × 128 块），使其无法使用。

5 Results

我们在各种条件下评估我们的网络。除非另有说明，本节中的所有实验均使用 D = 15 层（每个层具有 W = 64 3 × 3 滤波器）的网络，并在 2,590,186 128 × 128 硬补丁上从头开始训练。该网络有 559,776 个可训练参数。当 4000 张图像的单独验证集上的误差停止减少时，我们停止训练。我们在另一个包含 2000 张图像的数据集上测试了所有技术。所有三个数据集都是独立的，并且以相同的方式进行挖掘，如第 4 节中所述。测试集的一半是使用 HDR-VDP 指标挖掘的（我们将这一半称为 vdp 测试集）。另一半是使用摩尔纹度量组装的（我们将其称为摩尔纹）。竞争技术的参数设置为作者推荐的值，通常根据我们比较中包含的柯达/麦克马斯特数据集进行调整。我们的主要指标是 PSNR，其中在取对数之前对像素和颜色通道的误差进行平均。

首先，我们将我们的算法与之前使用无噪声 sRGB 图像进行仅去马赛克任务的工作进行比较（表 1，特别是未应用去噪）。该评估表明，高 PSNR 统计数据可能会掩盖微妙的感知伪影：我们在测试数据集中的困难案例上证明了这一点（图 9）。然后，我们展示对噪声输入进行去马赛克的结果，我们将其称为联合去马赛克和去马赛克（图 7）。尽管我们的网络是在 8 位 sRGB 数据上进行训练的，但我们还在线性 RGB 数据（表 2）和非拜耳马赛克上评估了我们的网络。这表明我们的方法可以推广到其他去马赛克条件。最后，我们描述了实现细节，并表明我们的算法在 CPU 和 GPU 上都比之前性能最佳的方法更快。

Demosaicking noise-free images

我们首先在来自两个常见去马赛克数据集的无噪声输入上评估我们的算法：McMaster [Zhang 等人。 2011] 和柯达 [Li 等人。 2008]。表 1（前两列）显示我们的网络在这些数据集上的性能优于之前的技术。然而，仅这些结果还不够，因为已知这些数据集存在缺陷并且歪曲了数字图像的统计数据[Levin et al. 2017]。 2012]。为了更准确地描述去马赛克挑战，我们还在训练期间未见过的 2000 个硬案例测试集上将我们的技术与现有技术进行了比较（表 1 第三和第四列）。我们的方法在定量上始终产生更好的结果，并且改进在视觉上也很显着（图 9）。我们的网络（经过困难案例的训练）成功处理复杂的模式并生成无伪影的结果。我们还与广泛使用的 Adobe Camera Raw 软件进行比较。所有数据集和技术的结果都可以在补充材料中找到。由于测试图像是无噪声的，因此本实验中没有应用去噪。

Training set and training time

我们最初使用来自 Imagenet 的 130 万张图像来训练我们的网络 [Deng 等人。 2009] 和来自 MirFlickr [Huiskes 和 Lew 2008] 的 100 万个数据，而不是我们的困难案例数据集。尽管达到了有竞争力的 PSNR 水平（与 FlexISP 相当[Heide et al. 2014]），该网络还是产生了明显的伪影，主要是沿着薄结构和容易出现摩尔纹的纹理。我们认为，这是由于这些标准数据集对平滑补丁或明确边缘等琐碎情况的固有偏见。在困难情况下训练网络可以显着提高视觉质量（图 3）。我们发现微调 Imagenet+MirFlickr 网络或从头开始重新训练同样有效。我们报告的所有结果都是从头开始仅针对困难示例进行训练的。经过一天的训练后，准确性在数值上具有竞争力，但图像质量会随着训练时间的延长而提高。为期一周的训练在深度网络中很常见，并且对我们方法的实用性没有影响，因为它只在部署算法之前进行一次。

Joint denoising and demosaicking results

我们现在展示联合去噪和去马赛克的结果（图 10）。我们训练被连续噪声水平损坏的图像 σ ∈ [0; 20]。与之前的工作类似，我们将白平衡伽马校正图像中的噪声建模为与信号无关的高斯白噪声 [Jeon 和 Dubois 2013]。在评估过程中，我们在用于训练的范围内以 6 个噪声级别测试了图像（图 7）。我们的结果在所有噪声水平上始终优于以前的技术。

我们还尝试了在单一噪声水平而不是连续水平上训练的网络，并且没有观察到结果质量的显着变化（图 7）。这表明网络已经经过最佳训练，不需要针对每个噪声级别进行微调。

Processing linear data

卡沙比等人[2014] 建议应该使用仿射噪声模型对原始 RGB 数据进行去马赛克评估 [Foi 等人2008年；哈西诺夫等人2010]。在之前的实验中，我们改为在 sRGB 上进行训练和评估，以便于与选择执行相同操作的最先进技术进行比较。无需对线性数据或仿射噪声模型进行任何进一步的训练，我们的 sRGB 训练网络就优于 MSR 16 位线性 Panasonic 测试集上的最佳技术 [Khashabi 等人2014]（表2）。由于该数据集中未提供单个图像的噪声参数，因此我们估计平均噪声方差并将其用作噪声参数。我们还在从 sRGB 线性化的硬案例数据集上微调了我们的网络，并观察到几乎相同的性能。这表明我们的网络不限于 sRGB 数据，并且可以很好地推广到线性数据。真实的 RAW 训练数据是理想的，但可用的数据集不包含足够的具有挑战性的案例：我们在 MIT5k 上训练时没有观察到质量提高 [Bychkovsky 等人2011]或MSR训练集。图 8 显示了我们的算法对 Canon 5D mark II 在不同 ISO 级别拍摄的真实（线性）RAW 图像的输出。

Alternative mosaick patterns

通过一些简单的修改，我们的方法可以推广到非拜耳模式。我们尝试了 Fuji X-Trans 模式。与图 2 所示的拜耳网络相比，我们不再以四分之一分辨率处理图像。相反，马赛克输入 RGB 值在单独的平面上保持全分辨率：我们删除层 F0 和 FD+1。 X-Trans 图案为 6x6 像素；这意味着更积极的下采样。在训练时，我们将颜色掩模应用于地面实况，将其转换为非拜耳马赛克。我们在困难案例数据集上从头开始训练这个修改后的网络三天。我们在 MSR Panasonic X-Trans 数据集上评估这个新网络 [Khashabi 等人2014]。下表显示我们的算法始终比以前的技术表现更好。

Variations on the network configuration

使用少至 D = 7 的层对总体精度的影响最小，但容易出现摩尔纹的斑块会显着降低：它们受益于更深网络的大空间占用。每层 W = 64 个滤波器效果良好，使用 W = 128 是多余的，而 W = 32 会降低 PSNR。

Running time

除非另有说明，我们在 Intel Core i7-3770K 和 GeForce Titan 700 上使用 1MPix 图像对所有方法进行基准测试，并报告 10 次运行的平均时间。我们的技术在像素数上是线性的。通过处理图块中的图像，可以使超线性竞赛以线性时间运行。我们使用 Halide 图像处理语言 [Ragan-Kelley 等人2013]实施我们的网络。我们的 D = 15 层网络的 CPU 实现比 ATLAS Caffe 快 8 倍 [Jia 等人。 2014]，并且比使用英特尔数学内核库的 Caffe 快 3.5 倍。它在现代台式机 CPU 上以 3s/Mpix 的速度处理图像。我们的方法比以前使用全局优化（如 FlexISP）的高质量技术快两个数量级 [Heide 等人 2014]和其他非局部技术[Zhang et al. 2011]（表3）。

Limitations

我们的方法依靠图像指标来检测具有挑战性的补丁并构建真实数据集。我们使用 HDRVDP 来处理亮度伪影，但它并不完美，我们可以从更好的指标中受益。此外，如果 sRGB 地面实况被颜色摩尔纹损坏，我们的网络将了解损坏情况；需要无参考摩尔纹探测器来缓解这种情况。

6 Conclusion

我们证明了基于深度神经网络的联合方法可以显着提高去马赛克和去噪的质量。它甚至可以解决通常会导致拉链或摩尔纹伪影的挑战性情况。然而，传统的监督学习必须适应，因为绝大多数图像区域很容易解决，而真正的困难情况发生得不够多，而且即使是先进的感知图像度量也不能很好地表征。我们提出了一种自适应方法以及新的摩尔纹检测指标来应对这些挑战。我们的方法在感知和统计视觉质量方面都优于最先进的解决方案，同时速度快了一个数量级。

Adagrad

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Deep Joint Demosaicking and Denoising

去马赛克和去噪是数字成像流程的关键第一阶段，但它们也是一个严重不适定的问题，从单个噪声测量中推断出每个像素的三个颜色值。早期的方法依赖于手工制作的滤波器或先验，并且在硬情况下（例如摩尔纹或薄边缘）仍然表现出令人不安的视觉伪影。我们引入了一种新的数据驱动方法来应对这些挑战：我们在大型图像语料库上训练深度神经网络，而不是使用手动调整的滤波器。虽然深度学习已经取得了巨大的成功，但其使用现有训练数据集的简单应用并不能为我们的问题提供令人满意的结果，因为这些数据集缺乏困难的案例。
复制链接

扫一扫

专栏目录