文章标题:Goal Conditioned Reinforcement Learning for Photo Finishing Tuning
原文链接:RLPixTuner
本文是上海AI Lab联合香港中文大学(薛天帆等人)发表在2024NIPS上的论文。
1. Abstract
图像冲印调优旨在自动化对图像冲印管道(如Adobe Lightroom或Darktable)的手动调参过程。先前的工作要么使用零阶优化方法,要么依靠目标冲印管道的可微代理(进行模型训练)。前一种优化方法在参数量增加时会变得很慢;后一种优化方法很难训练。为了克服这些困难,本文提出了一个新颖的基于目标引导的强化学习框架,在使用目标图像作为条件的前提下,高效地调优管道参数。和先前的工作不同,本模型不需要依靠任何的代理并且仅把图像冲印管道视为黑盒。利用一个训练好的强化学习策略,本框架可以在十次查询内就可以找到最优的参数集,而基于优化的方法通常需要200次查询。除此以外,我们的架构使用目标图像(包括像素对齐的目标图像,风格化图像,或者是其他的可视化表示目标)引导管道参数的迭代调优过程。本文在图像冲印调优和图像风格化调优任务上执行了详细的实验,证明了方法的有效性。
2. Method
2.1 Problem Definition
本框架的目标定义为:
arg
min
P
L
(
I
g
,
f
P
I
P
E
(
I
0
,
P
)
)
,
\mathop{\arg\min}\limits_{P} \mathcal{L}(I_g, f_{PIPE}(I_0,P)),
PargminL(Ig,fPIPE(I0,P)),
其中,
f
P
I
P
E
f_{PIPE}
fPIPE是图像处理管道,
I
0
I_0
I0为输入图像,
P
P
P为图像处理管道的配置参数。
I
g
I_g
Ig为目标图像,需要注意的是,在不同的任务中,
I
g
I_g
Ig是不同的。
2.2 Goal Conditioned Reinforcement Learning
本节定义强化学习因素。定义
S
\mathcal{S}
S为状态空间,
O
\mathcal{O}
O为观测空间,
A
\mathcal{A}
A是动作空间,
T
\mathcal{T}
T是转移函数,
R
\mathcal{R}
R是奖励函数,
G
\mathcal{G}
G是目标分布,
ρ
0
\rho_0
ρ0是初始状态分布,
γ
\gamma
γ是折扣因子。这些因子在形式上形成了基于目标的偏观测的马尔可夫过程
(
S
,
O
,
A
,
T
,
R
,
G
,
ρ
0
,
γ
)
(\mathcal{S},\mathcal{O},\mathcal{A},\mathcal{T},\mathcal{R},\mathcal{G},\rho_0,\gamma)
(S,O,A,T,R,G,ρ0,γ)。
在每一个调优步
t
t
t中,智能体接收一张目标图像
I
g
∈
G
I_g \in \mathcal{G}
Ig∈G和一个观测
o
t
∈
O
o_t \in \mathcal{O}
ot∈O。其中,观测
o
t
o_t
ot由当前的图像
I
t
I_t
It和历史动作及观测组成。动作
a
t
a_t
at是图像处理管道在
t
t
t步将采取的参数集
P
P
P。转移方程
T
:
S
×
A
→
S
\mathcal{T}:\mathcal{S}×\mathcal{A} \rightarrow\mathcal{S}
T:S×A→S就是在Sec2.1中定义的
f
P
I
P
E
f_{PIPE}
fPIPE。奖励函数是
R
(
s
,
I
g
)
\mathcal{R}(s,I_g)
R(s,Ig),其中,
s
∈
S
s \in \mathcal{S}
s∈S,
I
g
∈
G
I_g \in \mathcal{G}
Ig∈G。本模型旨在学到一个目标引导的策略
π
(
a
∣
o
,
I
g
)
:
S
×
G
→
A
\pi(a|o,I_g):\mathcal{S}×\mathcal{G}\rightarrow\mathcal{A}
π(a∣o,Ig):S×G→A,从而最大化折扣奖励的期望和
E
s
0
∼
ρ
0
,
I
g
∼
G
∑
t
γ
t
R
(
s
t
,
I
g
)
.
\mathbb{E}_{s_0 \sim \rho_0,I_g \sim \mathcal{G}}\sum_t\gamma^t\mathcal{R}(s_t,I_g).
Es0∼ρ0,Ig∼Gt∑γtR(st,Ig).
其中,策略
π
\pi
π是一个确定策略
μ
θ
\mu_\theta
μθ,输出连续的动作值
a
t
=
μ
θ
(
o
t
,
I
g
)
a_t = \mu_\theta(o_t,I_g)
at=μθ(ot,Ig)。