项目:用PPO搭建强化学习小车在gazebo中运行
问题:在到达目标点之前的rew需要设置为负数吗?
思路:
1.因为设置为正数的时候,同时有设置了一个最大步数,也就是这一次游戏中走了大于800步就不再运行了,重新初始化。训练出来的agent向目标靠近但是在目标周围徘徊,无法到达目标点。怀疑agent觉得走满800步获得的奖励也不错,所以不靠近目标点。
2.想知道代码中优化策略网络的原理。最终到达目标的那个很大的rew是否会传递到接近目标的那几步呢?
项目:用PPO搭建强化学习小车在gazebo中运行
问题:在到达目标点之前的rew需要设置为负数吗?
思路:
1.因为设置为正数的时候,同时有设置了一个最大步数,也就是这一次游戏中走了大于800步就不再运行了,重新初始化。训练出来的agent向目标靠近但是在目标周围徘徊,无法到达目标点。怀疑agent觉得走满800步获得的奖励也不错,所以不靠近目标点。
2.想知道代码中优化策略网络的原理。最终到达目标的那个很大的rew是否会传递到接近目标的那几步呢?