强化学习中的调参经验与编程技巧(on policy 篇)

最新推荐文章于 2024-09-27 12:37:10 发布

启人zhr

最新推荐文章于 2024-09-27 12:37:10 发布

阅读量3.8k

点赞数 12

分类专栏：强化学习理论与实践文章标签：强化学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_27008079/article/details/108313137

版权

本文探讨强化学习中针对Pendulum、Mujoco和DeepMind Control Suite的调参经验，涉及PPO算法的改进，如clip V、KL early stop和normalization。通过调整超参数，如最大KL值和熵系数，以优化学习过程，提高奖励稳定性。

摘要由CSDN通过智能技术生成

在强化学习的训练过程中，常常会遇见以下问题

在某一环境中可以work的超参数拿去训练别的环境却怎么训练不出来

训练时熵在增大

训练动作达到边界

本文通过调试几个环境的案例来探究强化学习的调参方法

摆锤这个环境可以看做连续控制中的入门环境了，环境初始时在一个随机的位置，目标是将其摆动以使其保持直立，它的状态维度为3，动作维度为1

拟使用PPO解决这个问题，ppo的流程如下：

首先说第一步，在和环境交互的过程中，我们往往规定了步数，在规定的step内，环境往往没有done，这会给我们这一次迭代计算adv有误差，面对这个问题，往往有两种处理方式：
- 完成这次交互，也就是超过这一次规定的迭代步数直到done，这样做会使每一次迭代更新时的交互step不同，比较不同算法在相同的step性能如何时略显不公平
- 不完成这次交互，这样会使最后step采用gae对adv估值存在近似。
在John Schulman’s 程序中，对V估值采用这种方式：
```
V(s_t+1) = {0 if s_t is terminal         
           {v_s_{t+1} if s_t not terminal and t != T (last step)         
           {v_s if s_t not terminal and t == T
```
也就是最后一个step如果不是终止状态，则它下一状态的V估值为当前状态的V估值

在有的程序中，也采用V神经网络下一状态的值作为对下一状态的V函数估值
第二步流程中计算v_target会根据是否采用gae有两种计算方式
- 根据每一step的reward按照gamma return的方式计算v_target
- 根据每一step的adv和v估值累加作为v_target
第三步中loss计算包含有aloss,vloss和entropy

我们先使用简单的PPO来训练一下环境，参数选择如下：

lam = lambda f: 1 - f / train_steps
self.opti_scheduler = torch.optim.lr_scheduler.LambdaLR(self.opti, lr_lambda=lam)

loss = aloss - loss_entropy*self.c_en + v_loss*self.c_vf

torch.nn.utils.clip_grad_norm_(self.critic.parameters(), self.max_grad_norm)
torch.nn.utils.<

关注

专栏目录