什么是Sparse Reward

agent学习的过程中,常常无法及时获得回报。就像家长让小朋友写作业,小朋友可能觉得这个是负面的反馈而不去写作业(做作业让我觉得很痛苦qwq),而没有意识到以后会获得的巨大回报:写完作业后成绩提高,考上好大学,成为高富帅,从此走向巅峰赢取白富美...

这个一开始的暂时的小的reward 就叫 Sparse Reward

如何让agent在Sparse Reward 中拥有更好的学习表现?

1.“写完作业就给糖吃”

把关键的一些动作强制地定义为正的reward,这样agent就不会反感这一学习行为,从而一步步走到最大的reward

2.“兴趣是最好的老师 ” Curiosity Module

尽管是一些风吹草动,很难让agent得到一些有用的反馈。这时让agent自己预测这个动作将来的reward,这样也能达到最终的效果。让agent预测做一个动作的未来的reward,从而使agent有兴趣的学习。

3.“制定学习计划” Curriculum Learning

人来设定agent的学习顺序,使agent以从易到难的顺序学习

4.阶层式强化学习 Hierarchical RL

由上层agent提出愿景,由最下层agent来执行动作

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值