2024NIPS | 在目标引导下利用强化学习范式进行图像冲印调优

文章标题:Goal Conditioned Reinforcement Learning for Photo Finishing Tuning
原文链接:RLPixTuner
本文是上海AI Lab联合香港中文大学(薛天帆等人)发表在2024NIPS上的论文。

1. Abstract

图像冲印调优旨在自动化对图像冲印管道(如Adobe Lightroom或Darktable)的手动调参过程。先前的工作要么使用零阶优化方法,要么依靠目标冲印管道的可微代理(进行模型训练)。前一种优化方法在参数量增加时会变得很慢;后一种优化方法很难训练。为了克服这些困难,本文提出了一个新颖的基于目标引导的强化学习框架,在使用目标图像作为条件的前提下,高效地调优管道参数。和先前的工作不同,本模型不需要依靠任何的代理并且仅把图像冲印管道视为黑盒。利用一个训练好的强化学习策略,本框架可以在十次查询内就可以找到最优的参数集,而基于优化的方法通常需要200次查询。除此以外,我们的架构使用目标图像(包括像素对齐的目标图像,风格化图像,或者是其他的可视化表示目标)引导管道参数的迭代调优过程。本文在图像冲印调优和图像风格化调优任务上执行了详细的实验,证明了方法的有效性。
请添加图片描述

2. Method

2.1 Problem Definition

本框架的目标定义为: arg ⁡ min ⁡ P L ( I g , f P I P E ( I 0 , P ) ) , \mathop{\arg\min}\limits_{P} \mathcal{L}(I_g, f_{PIPE}(I_0,P)), PargminL(Ig,fPIPE(I0,P)),
其中, f P I P E f_{PIPE} fPIPE是图像处理管道, I 0 I_0 I0为输入图像, P P P为图像处理管道的配置参数。 I g I_g Ig为目标图像,需要注意的是,在不同的任务中, I g I_g Ig是不同的。

请添加图片描述

2.2 Goal Conditioned Reinforcement Learning

本节定义强化学习因素。定义 S \mathcal{S} S为状态空间, O \mathcal{O} O为观测空间, A \mathcal{A} A是动作空间, T \mathcal{T} T是转移函数, R \mathcal{R} R是奖励函数, G \mathcal{G} G是目标分布, ρ 0 \rho_0 ρ0是初始状态分布, γ \gamma γ是折扣因子。这些因子在形式上形成了基于目标的偏观测的马尔可夫过程 ( S , O , A , T , R , G , ρ 0 , γ ) (\mathcal{S},\mathcal{O},\mathcal{A},\mathcal{T},\mathcal{R},\mathcal{G},\rho_0,\gamma) (S,O,A,T,R,G,ρ0,γ)
在每一个调优步 t t t中,智能体接收一张目标图像 I g ∈ G I_g \in \mathcal{G} IgG和一个观测 o t ∈ O o_t \in \mathcal{O} otO。其中,观测 o t o_t ot由当前的图像 I t I_t It和历史动作及观测组成。动作 a t a_t at是图像处理管道在 t t t步将采取的参数集 P P P。转移方程 T : S × A → S \mathcal{T}:\mathcal{S}×\mathcal{A} \rightarrow\mathcal{S} T:S×AS就是在Sec2.1中定义的 f P I P E f_{PIPE} fPIPE。奖励函数是 R ( s , I g ) \mathcal{R}(s,I_g) R(s,Ig),其中, s ∈ S s \in \mathcal{S} sS, I g ∈ G I_g \in \mathcal{G} IgG。本模型旨在学到一个目标引导的策略 π ( a ∣ o , I g ) : S × G → A \pi(a|o,I_g):\mathcal{S}×\mathcal{G}\rightarrow\mathcal{A} π(ao,Ig):S×GA,从而最大化折扣奖励的期望和 E s 0 ∼ ρ 0 , I g ∼ G ∑ t γ t R ( s t , I g ) . \mathbb{E}_{s_0 \sim \rho_0,I_g \sim \mathcal{G}}\sum_t\gamma^t\mathcal{R}(s_t,I_g). Es0ρ0,IgGtγtR(st,Ig).
其中,策略 π \pi π是一个确定策略 μ θ \mu_\theta μθ,输出连续的动作值 a t = μ θ ( o t , I g ) a_t = \mu_\theta(o_t,I_g) at=μθ(ot,Ig)

### NIPS 2024 强化学习最新进展 截至当前时间,NIPS 2024的具体会议议程和接受论文列表尚未公布。然而,基于以往的趋势和发展方向,可以预测一些可能的研究热点和技术进步。 #### 研究趋势分析 近年来,离线强化学习成为研究焦点之一,在不依赖于在线交互的情况下训练策略的能力使得该领域备受关注[^1]。专家监督下的强化学习方法能够利用已有数据集中的经验来提升模型性能,这不仅提高了算法效率还降低了实际应用成本。 #### 预期突破方向 - **大规模预训练模型的应用**:借鉴自然语言处理的成功案例,预计会有更多工作探索如何通过自监督方式构建通用特征表示,并将其迁移到特定任务上。 - **多模态融合技术的发展**:随着传感器技术和计算资源的进步,结合视觉、听觉等多种感知渠道的信息来进行决策制定将成为一个重要课题。 - **安全性和鲁棒性的增强**:为了使RL系统能够在真实环境中稳定运行,对于不确定因素建模以及异常情况处理机制的设计至关重要。 ```python # 示例代码展示了一个简单的DQN实现框架 import gym import torch from collections import deque class DQNAgent: def __init__(self, state_size, action_size): self.memory = deque(maxlen=2000) self.state_size = state_size self.action_size = action_size def remember(self, state, action, reward, next_state, done): self.memory.append((state, action, reward, next_state, done)) def act(self, state): # 实际动作选择逻辑省略... pass env = gym.make('CartPole-v1') agent = DQNAgent(state_size=env.observation_space.shape[0], action_size=env.action_space.n) for e in range(EPISODES): state = env.reset() for time_t in range(MAX_STEPS): action = agent.act(state) next_state, reward, done, _ = env.step(action) agent.remember(state, action, reward, next_state, done) if done: break state = next_state ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值