Deep tone mapping network in HSV color space

Abstract

色调映射算子可以将高动态范围(HDR)图像转换为低动态范围(LDR)图像,这样我们就可以用LDR设备享受HDR图像的信息内容。然而,目前的色调映射算法主要关注亮度映射,而忽略了颜色分量。与此同时,它们经常遭受光晕伪影和过度增强。本文提出了一种色调-饱和度-值(HSV)色彩空间中的色调映射网络(TMNet),以获得更好的亮度和色彩映射。我们采用改进的Wasserstein生成对抗网络(WGAN-GP)作为基本架构,并进一步介绍了一些改进。采用精心设计的损失函数将色调映射图像推至自然图像流形。更重要的是,我们创建了一个色调映射图像数据集,其中标签图像由摄影师手动调整。与现有的色调映射方法相比,该方法在主观和客观评价方面都取得了较好的效果。

I. INTRODUCTION

自然场景具有非常宽的亮度动态范围,从10−4到105 cd/m2不等,这远远超出了普通数字显示器的能力。高动态范围(HDR)图像可以存储大的动态范围亮度,提供更好的视觉体验。然而,由于硬件的限制,很多低动态范围(LDR)设备无法正常显示HDR内容。色调映射(TM)操作符可以将HDR图像转换为LDR图像。因此,为了在传统设备上显示HDR图像,有必要使用TM算子压缩亮度范围。

在过去的几十年里,音调映射引起了人们的广泛关注。目前提出了许多TM方法,可简单地分为全局方法和局部方法。全局方法倾向于通过单压缩曲线[1]、直方图调整[2]等方式对HDR图像进行全局转换。但这些方法不能很好地保留局部对比度。相反,局部方法使用空间变化的方式来处理这一任务,因此在细节增强方面表现更好。它们大多通过边缘保持滤波器将HDR图像分解为一个基础层和一个细节层。然后对嵌入亮度信息的基础层进行压缩,同时保留或增强具有细粒度细节的细节层。近年来,深度学习因其强大的特征表示能力而受到广泛关注。Hou等人提出了一种在线卷积神经网络(CNN)模型[6],由于数据集有限,该模型只能转换一张HDR图像。Patel等人使用色调映射图像质量指数(TMQI)最高的LDR图像作为标签来训练生成式对抗网络(GAN)模型[7],TMQI是色调映射领域流行的客观评价指标。该方法利用传统的色调映射算子,主要关注客观评价指标。

总的来说,现有的TM方法有两个主要的局限性。一方面,许多当前的方法会导致过度增强和严重的工件。另一方面,传统方法通常侧重于压缩亮度动态范围,而忽略了颜色分量。

为了解决以上两个问题,我们提出了一种新的HDR图像色调映射管道,如图1所示。我们首先将输入的HDR图像转换为HSV色彩空间。然后,提出的Tone Mapping Network (TMNet)同时重建S和V通道,学习精细亮度和高质量饱和度映射。由于色调映射算子假设变换发生在相同的色域内,因此保留了H通道,可以有效地防止色移。我们还使用精心设计的损失函数,包括对抗损失和内容损失,来推动输出图像在结构保存和自然度方面都有更好的表现。最后,我们将TMNet输出和原H通道转换回RGB色彩空间,得到最终结果。此外,由于色调映射图像没有真实的底色,我们提出了一个色调映射图像数据集,其中真实的底色图像由摄影师手动修饰。这些摄影师可以使用不同的方法获得高质量的地面真实图像,这些图像看起来像真实图像,具有较高的TMQI值。通过这些改进,我们的方法在结构保真度和自然度之间取得了很好的平衡。定量和视觉结果表明,该方法优于现有的最先进的色调映射方法。

II. PROPOSED METHOD

在本节中,我们将介绍我们的HDR色调映射管道,包括预处理和TMNet的体系结构。

A. Pre-processing

由于图像的动态范围大部分嵌入在亮度域中,传统算法通常只关注亮度分量而忽略色度分量。特别地,有些算法在HSV色彩空间中执行,它们只变换V通道,同时与饱和通道相乘比例因子以避免过饱和,如下:

其中TMrgb表示RGB色彩空间中的色调映射图像,α是控制饱和度的手动参数,f表示将色彩空间转换回RGB的函数。

其他利用RGB色彩空间的算法通常计算输入亮度和映射亮度之间的比例因子,然后使用它来变换输入RGB像素,如下所示:

其中Lw和Ld分别为输入亮度和色调映射亮度,Irgb为输入像素值,Orgb为RGB色彩空间中色调映射像素值,s为控制饱和度的手动参数。

如前所述,这些方法大多采用手动参数来控制饱和度。然而,很难找到一个适合所有场景的最优值。因此,我们将输入的HDR图像转换为HSV色彩空间,重建S通道和V通道,以同时学习高质量的亮度和饱和度映射。与RGB色彩空间相比,该方法由于保留了H通道,有效地避免了色彩偏移问题。

在处理之前,输入的V通道被映射到对数域。对数函数的使用假设HDR图像中的大多数结构细节处于低动态范围,因此在压缩高亮度水平的同时提高低亮度水平是合理的。这一步模拟了人类视觉系统对亮度的响应,初步缩小了动态范围。

B. TMNet

GAN为生成具有高感知质量的视觉上可信的自然图像提供了一个强大的框架。拟议的TMNet基于一个对抗性的U-Net[13],并进行了一些具体的调整。

对于生成器,采用典型的U-Net [13]架构,因为它可以提取更多的高级信息并将其重建为原始大小。在大小相同的编码层和解码层之间增加skip连接和concat模块,以保持空间结构信息并利用多尺度特征。更重要的是,我们还将输入与解码器的输出连接起来,以保持输入的像素级细节。

在编码器中,采用7 × 7核步长为2的卷积层进行特征提取,并初步减小了特征图的尺寸。然后我们使用步长为2的四个残差块[8]。残差块只学习输入和目标之间的残差,从而使网络更容易优化。解码器由五个转置卷积层和两个卷积层组成。具有2 × 2内核和步幅2的转置卷积层旨在实现上采样,具有3 × 3内核和步幅1的最后两层用于微调输出。每个卷积层后面都有一个ReLU作为激活函数,除了最后一个,后面是一个sigmoid激活函数,将输出值限制在[0,1]范围内。在本文中,卷积层包含四个卷积层,具有3 × 3内核和步幅2,每个卷积层后面都是层规范化和ReLU。

一个引人注目的色调映射图像应该满足以下两个方面。首先,结构信息和局部细节应该与输入HDR图像一致。第二,色调映射的图像应该避免伪影并且在视觉上是真实的。为此,我们精心设计了以下损失函数:

其中,x表示色调映射图像,y是目标标签图像,Pg和Pr分别是生成器和目标分布。λ x表示沿着目标分布和生成器分布中的点之间的直线沿着采样的点,λ用原始的随机损失对惩罚进行加权。µx、σx、σxy分别是两个贴片之间的平均值、标准差和互相关。当均值和方差接近零时,使用c1和c2来避免不稳定性。β加权了与其他人的对抗性损失,在实验中被设置为0.1。

均方误差(MSE)损失确保像素域的准确性,而结构相似性指数(SSIM)损失旨在保持结构相似性。改进的Wasserstein生成对抗网络(WGAN-GP)损失将色调映射图像推到由感知相似性激励的目标域[9]。

最后,我们将TMNet的输出与输入H通道连接,并将它们转换回RGB颜色空间,以获得色调映射图像。

III. EXPERIMENTS AND RESULTS

A. Dataset and Training Settings

我们的数据集由两部分组成:HDR图像和色调映射图像。HDR图像收集自[10]和HDRI Haven1。我们特别从中挑选了1000张各种场景的图片。色调映射图像部分由3位摄影师使用Photomatix2制作,Photomatix2提供了20多种色调映射预设,以及HDRToolBox3提供的色调映射算法。摄影师仔细调整每个图像的适当参数,以确保色调映射图像具有高TMQI值的引人注目的主观质量。将数据集按7 ∶ 3的比例随机分为训练集和测试集。

我们的模型使用Pytorch实现,并部署在Tesla V100 GPU上。所有输入的HDR图像在训练中随机裁剪为256 × 256,batchsize为1,并在测试期间保持原始大小。训练损失最小化的亚当优化器的初始学习率为0.0001。整个训练过程持续150个epoch。

B. Comparison with Other Algorithms

我们比较我们的色调映射方法与国家的最先进的色调映射算法在收集的数据集。这些色调映射算法包括Kim等人[11]、Farbman等人[4]、拉曼等人[3]、Shitaba等人[12]、Li等人[14]和Liang等人[5]的方法。Kim等人[11]和拉曼等人[3]的方法使用HDRToolBox实现,其他方法通过源代码实现。所有这些色调映射方法都使用原始论文中提供的默认参数。

图2和图3示出色调映射结果的主观比较。输入的HDR图像直接显示,不需要色调映射算子。实验结果表明,该方法不仅具有较强的饱和度,而且在细节增强和自然度保持之间取得了较好的平衡。相比之下,所有其他方法都存在不同类型的失真。图2、其他方法在绘制海洋的左下角时遇到了困难,而我们的方法可以利用周围像素的信息来解决这个问题。图3我们可以看到Shitaba等人[12]和Kim等人[11]遭受亮度失真。拉曼等人[3]存在欠饱和的问题。Li等人[14]引起过度增强。Farbman等人[4]和Liang等人[5]分别失去了海滩和太阳区域的局部对比度。

为了进一步验证我们的方法的性能,我们使用TMQI作为这些色调映射方法的客观评估。TMQI评估色调映射图像的结构保真度和自然度,并将其平均以给出范围从0到1的最终分数。表1示出了对包含300个HDR图像的测试数据集执行的每种色调映射方法的平均TMQI分数。我们的方法具有最高的TMQI值(0.9075)和最高的自然度值(0.6494)。我们没有达到最高的保真度分数,因为这个指标计算了不同尺度上局部窗口的标准差,而我们的网络提取了更多的大尺度特征,以保持局部对比度并避免过度增强。实验结果表明,该方法在保证图像视觉质量的同时,还具有良好的客观性能。我们得到令人信服的结果的原因如下。首先,HSV颜色空间的利用使得网络更容易学习亮度和饱和度映射,同时避免颜色偏移。其次,手工创建的色调映射图像数据集为TMNet提供了高质量的标签。此外,对抗性损失使得色调映射图像具有较高的自然度得分,而SSIM损失使得结果能够保持最结构化的信息。

IV. CONCLUSIONS

本文提出了一种新的HDR图像色调映射流水线--色调映射网络(Tone Mapping Network,TMNet),以提高色调映射图像的视觉质量。该网络采用HSV颜色空间和生成式对抗结构,并设计了一个精心设计的损失函数。我们提出一个色调映射的图像数据集来为端到端训练提供高质量的标签。因此,我们的方法可以获得令人信服的结果,在结构保真度和自然度,同时避免了人为因素和颜色偏移。实验结果表明,所提出的方法优于现有的色调映射方法。

Tonemapping是数字图像处理领域中的一项技术,旨在将高动态范围(HDR)图像转换为低动态范围(LDR)图像,以便在标准显示设备上显示。HDR图像具有比标准LDR图像更大的亮度范围和更高的对比度,因此需要进行转换才能在设备上适当地呈现。Tonemapping技术可以将HDR图像的亮度范围压缩到与LDR图像相同的范围内,同时保留图像的细节和视觉效果。 Tonemapping算法有很多种,包括基于本地操作和全局操作。本地操作中,根据像素的局部特性选择不同的曲线扭曲函数,以改变局部亮度差异,使图像看起来更加自然。全局操作则是通过在整个图像上应用同一曲线来调整整个图像的亮度和对比度。基于本地操作的算法包括Reinhard等人提出的常用代表KIM图像和Durand等人提出的Bilateral Tone Mapping算法。基于全局操作的算法包括Xu等人提出的Modified Local Low Dynamic Range Tone Mapping算法,以及Fattal等人提出的基于峰值调制的Tone Mapping算法等。 Tonemapping技术在视觉效果、图像细节等方面有显著的改进。它在各种应用中都得到广泛的应用,包括电影、摄影和计算机游戏。然而,Tonemapping仍然存在一些挑战,例如折衷处理时需要平衡亮度和对比度,以及如何处理镜头光晕和色差等问题。因此,未来的研究方向将专注于解决这些问题和提高Tonemapping算法的效率和质量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值