Distort-and-Recover: Color Enhancement using Deep Reinforcement Learning


)

摘要

提出了一个基于深度强化学习的方法,用于颜色强化;将颜色强化看做一个马尔科夫决策,然后训练一个agent,去学习每步中最优的全局强化序列;此外,还提出了一个“失真-复原”的训练方案,仅需要高质量的参考图像用于训练(不用input-retouched图像对)

Introduction

本文提出了一个自动进行色彩强化的方法. First,提出了深度强化学习DRL对色彩强化(如下图)。将色彩强化问题看作一个马尔科夫决策MDP,每步行为(选择白平衡、上下文、亮度等操作)都可看做一个全局的颜色调整操作。它是一个迭代的过程,类似于人类一步一修图。之后使用DQN来解决MDP问题。

Second
提出了一个“distort-recover”训练方案。仅仅通过一系列的高质量参考图片来学习色彩强化。随机地对参考图像进行畸变,产生“distort-and-recover’”图像对。
Contributions
1.色彩强化agent可在无监督的情况下学习每次的润饰action。
2.提出“distort-and-recover”方案训练agent。
3.可在不知道色彩分配的情况下强化图像。
加粗文本 加粗文本
标记文本

引用文本

Problem Formulation

作者将输入图像记: I;
对其进行的调整action记为:A;
图像I(t)表示第t次使用上下文特征Fcontext(I(t))和全局色彩特征Fcolor(I(t))的图像;
A(t)表示每一次根据决策Ωθ确定的action;
状态S是上下文特征和色彩特征(Fcontext,Fcolor)的组合;
action space是一系列的A;
另外采用专家修饰的图像Itarget作为ground truth,将图像I(t)和图像Itarget的negative L2距离看做色彩审美指标。
最终目的是找到最优的色彩强化序列actions T{Aoptimal(t)⊂A},使得 最小

立即回报函数:当R(t)大于0时,表示第t次润饰的结果比前一次的好,给予一个正向激励;当R(t)小于0时,表示第t次润饰的结果比前一次的差,给予一个负向激励;

效用函数:表示在第t次润饰时选用action A对未来的影响;在训练agent时,根据Q(S(t),A)的值(值越大表示润饰效果越好)选择action

Automatic Color Enhancement

使用预训练的CNN对图像I(t)提取上下文特征和色彩特征,之后将提取的特征输入到agent网络,agent选择最优的action A(作者预先定义了12个actions),直到所有的action的值都为负数时才停止。

Features

上下文特征:选择VGG-16第六层的4096维激活做为上下文特征
色彩特征:采用CIELab颜色直方图,将CIELab空间的每个轴线性量化到20间隔,然后计算落入每个间隔的像素数,得到一个20X20X20维的直方图。

agent

由一个3层的多层感知器组成,并且每层均使用一个ReLu激励函数,使用公式一来训练agent,而决策Ωθ是由ϵ-贪心算法(ϵ=0)决定的.

Distort-and-Recover Training Scheme

对高质量的参考图像进行随机的色彩操作使其失真,得到伪输入-修饰图像对。

  1. 为了在有效的搜索空间提供更清晰的监督信号,在CIELab颜色空间上,将失真图像与参考图像的L2距离保持到10-20之间
  2. 为了防止色彩偏差,使用与DRL-agent动作集不同的全局动作:高光像素/阴影像素上的亮度/上下文/色彩饱和的调整;高光像素C/M/Y/R/G/B上的C/M/Y/R/G/B操作.
  3. 在选择高光像素/阴影像素时,使用soft-像素选择的方法,该方法利用一个变型的sigmoid函数,对高像素/低像素施加较高的权重。
  4. 还使用了基本的亮度/上下文/色彩饱和操作。
  5. 还考虑了简单性。

结果

选择不同特征的结果:

基于input-retouched图像对的不同方法结果对比:在这里插入图片描述
在这里插入图片描述
以Pix2Pix为基线的对比结果:
在这里插入图片描述
与专家A、B、C、D、E的修饰结果对比:在这里插入图片描述
不同修饰结果对比:在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值