【强化学习】强化学习致命三要素deadly triad

强化学习的致命三要素是:

  • 函数近似:利用不同的近似器(如人工神经网络)替代表格型的方法;
  • 自举:通过估计的值来更新估计(如动态规划和TD);
  • 离轨策略训练:用来进行训练的状态转移分布不是由目标策略产生的。比如动态规划中所做的,遍历整个状态空间并均匀地更新所有状态而不理会目标策略。

如果包含这三个要素,很有可能不稳定性就难以避免,如果只出现两个要素,那么不稳定性就是有可能避免的。

为什么包含这三个要素就不稳定?

这个问题原因没有一个确定的答案,但是有一些可能的解释。

  • 函数近似会引入误差,导致估计值偏离真实值,从而影响学习的效果。
  • 自举会使得估计值依赖于其他的估计值,从而产生不一致性和震荡。
  • 离策略训练会使得目标策略和行为策略不匹配,从而导致重要性采样比例的变化和方差的增大。

当这三个因素同时出现时,系统就存在收敛性问题,我们称之为死亡三角。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值