强化学习六(高阶) || 经验回放

强化学习六(高阶) || 经验回放

  1. 传统的TD算法会浪费经验

image-20220219220745073

  1. 传统的 transition 两个状态间的相关性非常强,这对强化学习是有害的,我们应该打散这些状态序列

image-20220219221000191

replay buffer:存放transition的集合

image-20220219221312720

image-20220219221502936

image-20220219222039605

优先经验回放

针对一些稀有的场景,我们不像经验回放一样均匀抽取transition,而是非均匀抽样

image-20220219222913532

比如我们要充分利用上图右边的经验

随机非均匀抽样的策略

image-20220219223134634

就是TD error的绝对值越大,被抽中的概率就越大

如果一条transition有较大的抽中概率,那么它的学习率应该设置得要比较小

image-20220219223738533

image-20220219224056772

总结规律

image-20220219224112399

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值