强化学习中的调参经验与编程技巧(on policy篇)

©PaperWeekly 原创 · 作者|张恒瑞

单位|北京交通大学

研究方向|强化学习

在强化学习的训练过程中,常常会遇见以下问题:

  • 在某一环境中可以 work 的超参数拿去训练别的环境却训练不出来

  • 训练时熵在增大

  • 训练动作达到边界


本文通过调试几个环境的案例来探究强化学习的调参方法。

pendulum

摆锤这个环境可以看做连续控制中的入门环境了,环境初始时在一个随机的位置,目标是将其摆动以使其保持直立,它的状态维度为 3,动作维度为 1。

拟使用 PPO 解决这个问题,ppo 的流程如下:

  1. 使用 Actor 网络与环境交互一定步数,记录下(state, action, reward, v, done)

  2. 根据记录下来的值计算优势值 adv(更新 actor 网络使用)和 v_target(更新 critic 网络使用)

  3. 计算 loss 更新 actor 网络和 critic 网络

首先说第一步,在和环境交互的过程中,我们往往规定了步数,在规定的 step 内,环境往往没有 done,这会给我们这一次迭代计算 adv 有误差,面对这个问题,往往有两种处理方式:完成这次交互,也就是超过这一次规定的迭代步数直到 done,这样做会使每一次迭代更新时的交互 step 不同,比较不同算法在相同的step性能如何时略显不公平不完成这次交互,这样会使最后 step 采用 gae 对 adv 估值存在近似。

在 John Schulman's 程序中,对 V 估值采用这种方式:

V(s_t+1) = {0 if s_t is terminal         
               {v_s_{t+1} if s_t not terminal and t != T (last step)         
               {v_s if s_t not terminal and t == T

也就是最后一个 step 如果不是终止状态,则它下一状态的 V 估值为当前状态的 V 估值。在有的程序中,也采用 V 神经网络下一状态的值作为对下一状态的 V 函数估值。

第二步流程中计算 v_target 会根据是否采用 gae 有两种计算方式:

  • 根据每一 step 的 reward 按照 gamma return 的方式计算 v_target

  • 根据每一 step 的 adv 和 v 估值累加作为 v_target

第三步中 loss 计算包含有 aloss,vloss 和 entropy。


1.1 初始

我们先使用简单的 PPO 来训练一下环境,参数选择如下:

  • actor,critic 网络初始化为正交初始化

  • steps=2048;

  • batch=64;

  • lr=3e-4 且经过训练迭代数逐渐减小;

lam = lambda f: 1 - f / train_steps
self.opti_scheduler = torch.optim.lr_scheduler.LambdaLR(self.opti, lr_lambda=lam)
  • 采用 return 方式计算v_target;

  • adv 计算采用 gae

  • loss 计算添加熵,系数(self.c_en)为 0.01

loss = aloss - loss_entropy*self.c_en + v_loss*self.c_vf
  • max_grad_norm=0.5

torch.nn.utils.clip_grad_norm_(self.critic.parameters(), self.max_grad_norm)
torch.nn.utils.clip_grad_norm_(self.actor.parameters(), self.max_grad_norm)

这些都是比较常规的 PPO 参数设置,进行 1000 迭代后(2048*1000 step)reward 变化如下:

算法并没有很好的学习,reward 在 100 iter 以内还有上升趋势,100iter 时突然下降,之后就再也起不来。

我们来看一下学习过程中各个诊断量变化情况。

  • 5
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
对于强化学习算法PPO(Proximal Policy Optimization)的技巧,以下是一些建议: 1. 学习率(learning rate):PPO的学习率是一个重要的超数,它控制着每次更新网络权重时的步长。通常情况下,可以尝试不同的学习率值,从小到大进行整,并观察算法的性能。较小的学习率可能导致训练收敛较慢,而较大的学习率可能导致不稳定的训练。 2. 折扣因子(discount factor):折扣因子决定了对于未来奖励的重视程度。较小的折扣因子会更加关注即时奖励,而较大的折扣因子会更加关注长期累积奖励。对于不同的任务,可以尝试不同的折扣因子值,并观察算法在长期和短期奖励上的表现。 3. PPO 损失函数的系数数:PPO算法有两个重要的系数数:clip_epsilon和value_coefficient。clip_epsilon控制着策略更新时的最大比例差异,较小的值会使得策略更新更加保守。value_coefficient则控制了值函数损失的权重,较大的值会更注重值函数的准确性。可以尝试不同的系数数值,并观察算法的表现。 4. 神经网络结构:PPO算法的性能也与神经网络结构有关。整神经网络的层数、节点数等数,可以对算法的性能产生影响。一般情况下,可以尝试简单的网络结构,并逐步进行增加复杂度的实验。 5. 训练样本量:PPO算法需要使用大量的训练样本来进行策略优化。增加训练样本量可以提高算法性能,但同时也增加了计算和存储的开销。可以尝试不同的训练样本量,并观察算法在稳定性和性能上的表现。 需要注意的是,是一个迭代的过程,需要通过实验和观察来确定最佳的数组合。同时,还可以考虑使用自动工具,例如使用网格搜索或贝叶斯优化等方法帮助找到最佳数组合。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值