O2O :SUF: Stabilized Unconstrained Fine-Tuning for Offline-to-Online Reinforcement Learning

20 篇文章 0 订阅
16 篇文章 0 订阅

AAAI 2024
paper

Intro

O2O为通过在线微调改进次优离线预训练策略提供了一种有前途的解决方案。然而,一种有效的无约束微调方法往往由于分布偏移过大而遭受严重的策略崩溃。为了确保稳定性,现有方法保留离线约束并在微调期间使用额外的技术,这会损害效率。在这项工作中\引入了一种新的视角:在不施加约束的情况下消除策略崩溃。受益于无约束微调的效率,同时通过修改Critic以及Actor的 Update-To Data 比率来确保稳定性。

Method

文章首先基于IQL算法进行离线训练,在用IQL在线微调代表带约束O2O,另外采用SAC作为无约束微调方法。对比二者结果,如下图中第一行所示。
在这里插入图片描述
可以看出约束方法不容易出现初始performance drop但是约束的存在限制算法的探索能力(如图b中动作的分布),进而导致样本效率较低。而无约束的方法在初期出现drop,但是后期的广泛探索增加了他的样本效率。文章通过分析buffer中样本的Q分布(图c,图b)发现无约束方法存在价值函数高估的问题。这是由于在初期阶段对OOD数据的高估,而错误的价值估计导致策略的偏移。但是图a证明无约束的方法只是在初期存在drop,那么要解决的问题自然就是如何消除这种drop。

所提出的方法便是改进Critic以及Actor的UTD。既然价值函数估计不准,那就增加Critic的UTD。而为了避免错误的价值估计影响策略,则减少Actor的UTD。

Rethinking the Necessity of Ensemble

价值函数集成的方法能够减小偏差但是增加的计算量,文章实验发现放离线数据可获取且通过预训练对智能体初始化时,增加的数据或改进的策略初始化可以减轻高UTD学习中的值偏差
在这里插入图片描述
而在线微调阶段,将离线数据与在线数据共同纳入到策略更新中,拥有最好的性能表现。因此,离线到在线 RL 利用数据集中的更广泛的数据,从而促进价值网络的更平滑拟合。同时,通过预训练策略的初始化在初始阶段生成更高质量的数据。这些属性有效地减轻了在线 RL 中的值偏差,使代理能够在不使用集成的情况下受益于高 UTD 学习。

SUF算法改进点包含两个: (1) 在过渡到在线阶段之前删除离线约束,(2) 修改演员和评论家的默认 UTD。

伪代码

在这里插入图片描述

results

在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值