如何判断强化学习算法是否收敛

如何判断强化学习算法是否收敛

1. 策略熵

  • 对于随机性策略(PPO等)可以用策略熵来表示策略是否“确定”。在训练过程中随着策略提升,策略变得越来越确定,此时熵应该是随着逐渐降低的,熵曲线趋于平缓。

2. loss指标(网络收敛好坏)

  • 这是DL中的直观指标,虽然不能直接用在DRL来说明策略好坏,但loss是在一直下降还是已经趋于平缓了,可以一定程度上说明网络模型的学习程度,看模型是“学会了”还是“学废了”,趋于平缓可能就是已经训练差不多了,当然“训练差不多”不代表“策略最优”,有些可能loss还在掉,但是策略表现改进不大一直很差(即时已经训练很久)。

3. reward指标(更常用)

  • 这是一个比较直观的指标,但是需要定义清楚是否能直接反应我们策略好坏。reward大多是对于状态之间转移的即时奖励,和整个决策规划的好坏不能直接等价。以下以“DRL用于agent决策导航”为例,我们目标是在最短时间到达目标点同时避障。
  • 在训练过程中,DRL策略在一个episode下获得的平均奖赏没有明显变化时,可以认为DRL训练近似收敛
  • 如果是dense reward,靠近目标点+reward,远离给-reward,按照距离变化程度乘一个系数,比如靠近1m给+1,靠近2m给+2,远离同理。这时候如果以“单条轨迹的累计折扣报酬”这个rewad指标来对比策略好坏,就不是很合理,因为那种“单步报酬不多但是轨迹长”的决策路径就会变成“最优reward轨迹”。所以应该以“一条轨迹的单步平均reward”作为指标,因为“最短时间达到目标点”这个目标可以转换成“轨迹短(决策步数短、时间短)”+“累计报酬多(每步的靠近多,路径短)”这两个目标。平均reward可以很好表示这个要求。
  • 如果是sparse reward,比如只有最后到达了才有+1、碰撞/超时有-1,过程动作都让agent去探索。这时候可能很长时间reward指标是接近于0的,或者一个很小的负数。压根训练不出来(当然也不知道是真-训不出来还是训练时间太短),这时候用reward指标是很难看出一个所以然的。

4. 其他

  • 和具体场景结合的一些指标,比如游戏中各种reward指标的一个平均reward,游戏里面agent的血量、存活率等等。(采用一些可以进行评价的指标)
  • 有些场景下设置了学习率随训练轮次逐渐减小的trick,也会影响一些收敛判断。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值