强化学习中的调参经验与编程技巧（on policy篇）

最新推荐文章于 2024-05-08 18:34:36 发布

PaperWeekly

最新推荐文章于 2024-05-08 18:34:36 发布

阅读量3.1k

点赞数 5

文章标签：网络人工智能强化学习深度学习机器学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/112000620

版权

©PaperWeekly 原创 · 作者｜张恒瑞

单位｜北京交通大学

研究方向｜强化学习

在强化学习的训练过程中，常常会遇见以下问题：

在某一环境中可以 work 的超参数拿去训练别的环境却训练不出来
训练时熵在增大
训练动作达到边界

本文通过调试几个环境的案例来探究强化学习的调参方法。

pendulum

摆锤这个环境可以看做连续控制中的入门环境了，环境初始时在一个随机的位置，目标是将其摆动以使其保持直立，它的状态维度为 3，动作维度为 1。

拟使用 PPO 解决这个问题，ppo 的流程如下：

使用 Actor 网络与环境交互一定步数，记录下（state, action, reward, v, done）
根据记录下来的值计算优势值 adv（更新 actor 网络使用）和 v_target（更新 critic 网络使用）
计算 loss 更新 actor 网络和 critic 网络

首先说第一步，在和环境交互的过程中，我们往往规定了步数，在规定的 step 内，环境往往没有 done，这会给我们这一次迭代计算 adv 有误差，面对这个问题，往往有两种处理方式：完成这次交互，也就是超过这一次规定的迭代步数直到 done，这样做会使每一次迭代更新时的交互 step 不同，比较不同算法在相同的step性能如何时略显不公平不完成这次交互，这样会使最后 step 采用 gae 对 adv 估值存在近似。

在 John Schulman's 程序中，对 V 估值采用这种方式：

V(s_t+1) = {0 if s_t is terminal         
               {v_s_{t+1} if s_t not terminal and t != T (last step)         
               {v_s if s_t not terminal and t == T

也就是最后一个 step 如果不是终止状态，则它下一状态的 V 估值为当前状态的 V 估值。在有的程序中，也采用 V 神经网络下一状态的值作为对下一状态的 V 函数估值。

第二步流程中计算 v_target 会根据是否采用 gae 有两种计算方式：

根据每一 step 的 reward 按照 gamma return 的方式计算 v_target
根据每一 step 的 adv 和 v 估值累加作为 v_target

第三步中 loss 计算包含有 aloss,vloss 和 entropy。

1.1 初始

我们先使用简单的 PPO 来训练一下环境，参数选择如下：

actor,critic 网络初始化为正交初始化
steps=2048;
batch=64;
lr=3e-4 且经过训练迭代数逐渐减小;

lam = lambda f: 1 - f / train_steps
self.opti_scheduler = torch.optim.lr_scheduler.LambdaLR(self.opti, lr_lambda=lam)

采用 return 方式计算v_target;
adv 计算采用 gae
loss 计算添加熵，系数（self.c_en）为 0.01

loss = aloss - loss_entropy*self.c_en + v_loss*self.c_vf

max_grad_norm=0.5

torch.nn.utils.clip_grad_norm_(self.critic.parameters(), self.max_grad_norm)
torch.nn.utils.clip_grad_norm_(self.actor.parameters(), self.max_grad_norm)

这些都是比较常规的 PPO 参数设置，进行 1000 迭代后（2048*1000 step）reward 变化如下：

算法并没有很好的学习，reward 在 100 iter 以内还有上升趋势，100iter 时突然下降，之后就再也起不来。

我们来看一下学习过程中各个诊断量变化情况。

最低0.47元/天解锁文章

PaperWeekly

关注

5
点赞
踩
46

收藏

觉得还不错? 一键收藏
7
评论
强化学习中的调参经验与编程技巧（on policy篇）

©PaperWeekly 原创 ·作者｜张恒瑞单位｜北京交通大学研究方向｜强化学习在强化学习的训练过程中，常常会遇见以下问题：在某一环境中可以 work 的超参数拿去训练别的环境却训练...
复制链接

扫一扫