Sparse Reward

#Sparse reward

解决sparse reward的方法有reward shaping、curiosity driven reward、(reverse)curriculum learning、Hierarchical Reinforcement learning等等。

reward shaping:在agent与environment交互时,人为设置的reward,从而指挥agent,告诉其采取哪一个action最优,而这个reward不是environment对应的reward,这样可以提高estimate Q-function时的准确性。

存在的问题:认为设计的reward需要domain knowledge,需要自己设计出符合environment与agent更好的交互的reward,这需要不少经验,需根据实际情况调整。

ICM:(intrinsic curiosity module)代表curiosity driven这个技术中的增加新的reward function后的reward function。

curriculum learning:一种广义的用在RL训练agent的方法,其在input训练数据的时候,采取由易到难的顺序进行input,也就是认识设计它的学习过程。

reverse curriculum learning:从最终理想的state出发,依次寻找距离gold state 最近的state作为想让agent达到的阶段性理想state,在此过程中去掉一些极端的case。总而言之,是从目标反推。

hierarchical reinforcement learning:将一个大型task,横或纵拆解成多个agent去执行。

#模仿学习

模仿学习包含两种方法,行为克隆(behavior cloning)和逆强化学习(inverse reinforcement learning)。

行为克隆:类似ML中的监督学习,通过收集expert的state与action 的对应信息,训练我们的network。在使用input state时,得到对应的output action。

……

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值