如何判断强化学习训练是否在收敛?

参考链接:

1、信息熵 – 针对于策略问题

如果信息熵逐渐降低,表明策略越来越确定,趋于平缓

2、loss指标 – 评价网络收敛的好坏

虽然不能直观的说明策略的好坏,但是loss可以看出网络模型的学习程度。
趋于平缓,训练的差不多了,不代表策略最优

3、reward

reward大多数是对于状态之间转移的即时奖励,和整个决策规划的好坏不能直接等价。
在训练过程中,DRL策略在一个episode下的平均奖赏没有明显变化时,可以视为DRL训练近似收敛。

  • dense reward:也可以换成使用平均reward来表示。
  • sparse reward:使用reward指标很难看出来,因为有很大一部分时候reward都是趋于0 的。

4、其他

  • 结合了具体场景的一些指标,如游戏中agent的血量、存活率等,采用一些可以进行评价的指标
  • 有些场景下设置了学习了随训练轮次逐渐减少的trick,也会影响一些收敛判断。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值