RL 参数影响 和 RL 结果分析

参数影响

  • Epsilon greedy:是用在决策上的一个策略,比如epsilon = 0.9的时候,就说明百分之90的情况我会按照Q表的最优值选择行为,百分之10的时间随机选择行为。代码中,设置了当random< epsilon时,随机产生行为,也就是90%会随机选择行为。
  • alpha:学习率,决定这次的误差有多少是要被学习的。
  • gamma:对未来reward的衰减值。gamma越接近1,机器对未来的reward越敏感

gamma小于1的意义在于加速收敛,因为如果缺乏收敛能力,意味着你无限远视,远视虽好,但在解决复杂问题时,就会让的的AI算法试图穷尽所有的状况空间和可能性,这对算力的要求是一个挑战。实际上如果你将它调小了,你会发现终点处的正奖励不能够“扩散”到周围,也就是说,机器人很有可能无法学习到一个到达终点的策略。

Gamma is the value of future reward. It can affect learning quite a bit, and can be a dynamic or static value. If it is equal to one, the agent values future reward JUST AS MUCH as current reward. This means, in ten actions, if an agent does something good this is JUST AS VALUABLE as doing this action directly. So learning doesn't work at that well at high gamma values.

 当前(状态, 动作)的Q值 = 当前奖励+衰减的未来奖励, 当γ非常接近1时, 模型训练很久模型都不收敛。

alpha 设置过低会导致机器人只在乎之前的知识,而不能积累新的 reward。

learning rate 如果选择的太小,收敛速度会很慢,如果太大,loss function 就会在极小值处不停地震荡甚至偏离。(有一种措施是先设定大一点的学习率,当两次迭代之间的变化低于某个阈值后,就减小 learning rate。如果学习率太小,会导致网络loss下降非常慢,或陷入局部最小值。如果学习率太大,那么参数更新的幅度就非常大,产生不稳定的学习曲线,或者loss直接开始增加。

DQN : Choosing the learning rate is challenging as a value too small may result in a long training process that could get stuck, whereas a value too large may result in learning a sub-optimal set of weights too fast or an unstable training process. 因为值太小可能会导致长时间的训练过程卡住,而值太大可能会导致学习次优权重集太快或训练过程不稳定。

RL 结果分析

在不同的任务环境中,超参数的选择也是不同的。

reward在100 iter以内还有上升趋势,过了100iter时突然下降,之后就再也起不来。

        可能是actor更新过快的原因。

reward 最终能呈上升趋势最终达到一个不错的值,但美中不足在于中间出现两次波折。

        ppo在一次迭代中使用同一批数据进行策略更新,要求策略变化不能过大,不然重要性采样就不再适用,所以在ppo的策略更新中采用了裁剪的技巧,但事实上即使这个技巧也不能保证限制kl散度大小,论文IMPLEMENTATION MATTERS IN DEEP POLICY GRADIENTS: A CASE STUDY ON PPO AND TRPO也指出裁剪没有起到真正作用。

如果reward长时间不能很好的上升,需要即时诊断其他重要变量变化情况,一般情况下vloss先下降再稍微上升最终平稳,entropy的曲线则是下降最终平稳,不能太快也不能上升,kl散度变化不能过大。

problem stability

Overestimation bias is the tendency of Q-Learning algorithms to overestimate the value of states. This overestimation is a result of the aggressive acting and learning in the Q-Learning algorithm.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值