RL 参数影响和 RL 结果分析

最新推荐文章于 2023-12-16 23:32:56 发布

fxolivia

最新推荐文章于 2023-12-16 23:32:56 发布

阅读量995

点赞数

分类专栏： RL 文章标签：深度学习

本文链接：https://blog.csdn.net/fxolivia/article/details/119887387

版权

RL 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文探讨了强化学习中的关键参数，如ε-贪婪策略的ε值、学习率α和未来奖励折扣因子γ的影响。ε值决定了探索与利用的平衡，α控制学习速度，γ影响模型对长期奖励的敏感度。当γ接近1时，训练可能慢或不收敛。过低的α会使学习停滞，而过大的学习率可能导致震荡或次优解。在实际应用中，超参数选择需针对具体任务环境调整，并关注奖励、损失、熵和KL散度等指标的变化。

摘要由CSDN通过智能技术生成

参数影响

Epsilon greedy：是用在决策上的一个策略，比如epsilon = 0.9的时候，就说明百分之90的情况我会按照Q表的最优值选择行为，百分之10的时间随机选择行为。代码中，设置了当random< epsilon时，随机产生行为，也就是90%会随机选择行为。
alpha：学习率，决定这次的误差有多少是要被学习的。
gamma：对未来reward的衰减值。gamma越接近1，机器对未来的reward越敏感

gamma小于1的意义在于加速收敛，因为如果缺乏收敛能力，意味着你无限远视，远视虽好，但在解决复杂问题时，就会让的的AI算法试图穷尽所有的状况空间和可能性，这对算力的要求是一个挑战。实际上如果你将它调小了，你会发现终点处的正奖励不能够“扩散”到周围，也就是说，机器人很有可能无法学习到一个到达终点的策略。

Gamma is the value of future reward. It can affect learning quite a bit, and can be a dynamic or static value. If it is equal to one, the agent values future reward JUST AS MUCH as current reward. This means, in ten actions, if an agent does something good this is JUST AS VALUABLE as doing this action directly. So learning doesn't work at that well at high gamma values.

当前(状态, 动作)的Q值 = 当前奖励+衰减的未来奖励，当γ非常接近1时, 模型训练很久模型都不收敛。

alpha 设置过低会导致机器人只在乎之前的知识，而不能积累新的 reward。

learning rate 如果选择的太小，收敛速度会很慢，如果太大，loss function 就会在极小值处不停地震荡甚至偏离。（有一种措施是先设定大一点的学习率，当两次迭代之间的变化低于某个阈值后，就减小 learning rate。如果学习率太小，会导致网络loss下降非常慢，或陷入局部最小值。如果学习率太大，那么参数更新的幅度就非常大，产生不稳定的学习曲线，或者loss直接开始增加。

DQN : Choosing the learning rate is challenging as a value too small may result in a long training process that could get stuck, whereas a value too large may result in learning a sub-optimal set of weights too fast or an unstable training process. 因为值太小可能会导致长时间的训练过程卡住，而值太大可能会导致学习次优权重集太快或训练过程不稳定。

RL 结果分析

在不同的任务环境中，超参数的选择也是不同的。

reward在100 iter以内还有上升趋势，过了100iter时突然下降，之后就再也起不来。

可能是actor更新过快的原因。

reward 最终能呈上升趋势最终达到一个不错的值，但美中不足在于中间出现两次波折。

ppo在一次迭代中使用同一批数据进行策略更新，要求策略变化不能过大，不然重要性采样就不再适用，所以在ppo的策略更新中采用了裁剪的技巧，但事实上即使这个技巧也不能保证限制kl散度大小，论文IMPLEMENTATION MATTERS IN DEEP POLICY GRADIENTS: A CASE STUDY ON PPO AND TRPO也指出裁剪没有起到真正作用。

如果reward长时间不能很好的上升，需要即时诊断其他重要变量变化情况，一般情况下vloss先下降再稍微上升最终平稳，entropy的曲线则是下降最终平稳，不能太快也不能上升，kl散度变化不能过大。

problem stability

Overestimation bias is the tendency of Q-Learning algorithms to overestimate the value of states. This overestimation is a result of the aggressive acting and learning in the Q-Learning algorithm.