如何判断强化学习算法是否收敛

最新推荐文章于 2025-03-12 15:57:01 发布

Enoch Liu98

最新推荐文章于 2025-03-12 15:57:01 发布

阅读量1.6w

点赞数 23

分类专栏： RL 文章标签：机器学习强化学习深度学习算法网络

原文链接：http://deeprl.neurondance.com/d/93/8

版权

18 篇文章

订阅专栏

这是DL中的直观指标，虽然不能直接用在DRL来说明策略好坏，但loss是在一直下降还是已经趋于平缓了，可以一定程度上说明网络模型的学习程度，看模型是“学会了”还是“学废了”，趋于平缓可能就是已经训练差不多了，当然“训练差不多”不代表“策略最优”，有些可能loss还在掉，但是策略表现改进不大一直很差（即时已经训练很久）。

这是一个比较直观的指标，但是需要定义清楚是否能直接反应我们策略好坏。reward大多是对于状态之间转移的即时奖励，和整个决策规划的好坏不能直接等价。以下以“DRL用于agent决策导航”为例，我们目标是在最短时间到达目标点同时避障。
在训练过程中，DRL策略在一个episode下获得的平均奖赏没有明显变化时，可以认为DRL训练近似收敛
如果是dense reward，靠近目标点+reward，远离给-reward，按照距离变化程度乘一个系数，比如靠近1m给+1，靠近2m给+2，远离同理。这时候如果以“单条轨迹的累计折扣报酬”这个rewad指标来对比策略好坏，就不是很合理，因为那种“单步报酬不多但是轨迹长”的决策路径就会变成“最优reward轨迹”。所以应该以“一条轨迹的单步平均reward”作为指标，因为“最短时间达到目标点”这个目标可以转换成“轨迹短（决策步数短、时间短）”+“累计报酬多（每步的靠近多，路径短）”这两个目标。平均reward可以很好表示这个要求。
如果是sparse reward，比如只有最后到达了才有+1、碰撞/超时有-1，过程动作都让agent去探索。这时候可能很长时间reward指标是接近于0的，或者一个很小的负数。压根训练不出来（当然也不知道是真-训不出来还是训练时间太短），这时候用reward指标是很难看出一个所以然的。