Distort-and-Recover: Color Enhancement using Deep Reinforcement Learning
)
摘要
提出了一个基于深度强化学习的方法,用于颜色强化;将颜色强化看做一个马尔科夫决策,然后训练一个agent,去学习每步中最优的全局强化序列;此外,还提出了一个“失真-复原”的训练方案,仅需要高质量的参考图像用于训练(不用input-retouched图像对)
Introduction
本文提出了一个自动进行色彩强化的方法. First,提出了深度强化学习DRL对色彩强化(如下图)。将色彩强化问题看作一个马尔科夫决策MDP,每步行为(选择白平衡、上下文、亮度等操作)都可看做一个全局的颜色调整操作。它是一个迭代的过程,类似于人类一步一修图。之后使用DQN来解决MDP问题。
Second
提出了一个“distort-recover”训练方案。仅仅通过一系列的高质量参考图片来学习色彩强化。随机地对参考图像进行畸变,产生“distort-and-recover’”图像对。
Contributions
1.色彩强化agent可在无监督的情况下学习每次的润饰action。
2.提出“distort-and-recover”方案训练agent。
3.可在不知道色彩分配的情况下强化图像。
加粗文本 加粗文本
标记文本
引用文本
Problem Formulation
作者将输入图像记: I;
对其进行的调整action记为:A;
图像I(t)表示第t次使用上下文特征Fcontext(I(t))和全局色彩特征Fcolor(I(t))的图像;
A(t)表示每一次根据决策Ωθ确定的action;
状态S是上下文特征和色彩特征(Fcontext,Fcolor)的组合;
action space是一系列的A;
另外采用专家修饰的图像Itarget作为ground truth,将图像I(t)和图像Itarget的negative L2距离看做色彩审美指标。
最终目的是找到最优的色彩强化序列actions T{Aoptimal(t)⊂A},使得 最小
立即回报函数:当R(t)大于0时,表示第t次润饰的结果比前一次的好,给予一个正向激励;当R(t)小于0时,表示第t次润饰的结果比前一次的差,给予一个负向激励;
效用函数:表示在第t次润饰时选用action A对未来的影响;在训练agent时,根据Q(S(t),A)的值(值越大表示润饰效果越好)选择action
Automatic Color Enhancement
使用预训练的CNN对图像I(t)提取上下文特征和色彩特征,之后将提取的特征输入到agent网络,agent选择最优的action A(作者预先定义了12个actions),直到所有的action的值都为负数时才停止。
Features
上下文特征:选择VGG-16第六层的4096维激活做为上下文特征
色彩特征:采用CIELab颜色直方图,将CIELab空间的每个轴线性量化到20间隔,然后计算落入每个间隔的像素数,得到一个20X20X20维的直方图。
agent
由一个3层的多层感知器组成,并且每层均使用一个ReLu激励函数,使用公式一来训练agent,而决策Ωθ是由ϵ-贪心算法(ϵ=0)决定的.
Distort-and-Recover Training Scheme
对高质量的参考图像进行随机的色彩操作使其失真,得到伪输入-修饰图像对。
- 为了在有效的搜索空间提供更清晰的监督信号,在CIELab颜色空间上,将失真图像与参考图像的L2距离保持到10-20之间
- 为了防止色彩偏差,使用与DRL-agent动作集不同的全局动作:高光像素/阴影像素上的亮度/上下文/色彩饱和的调整;高光像素C/M/Y/R/G/B上的C/M/Y/R/G/B操作.
- 在选择高光像素/阴影像素时,使用soft-像素选择的方法,该方法利用一个变型的sigmoid函数,对高像素/低像素施加较高的权重。
- 还使用了基本的亮度/上下文/色彩饱和操作。
- 还考虑了简单性。
结果
选择不同特征的结果:
基于input-retouched图像对的不同方法结果对比:
以Pix2Pix为基线的对比结果:
与专家A、B、C、D、E的修饰结果对比:
不同修饰结果对比: