【强化】sparse reward

https://www.bilibili.com/video/BV1MW411w79n?p=7&vd_source=275b19d02ca629f220713e4de0936247

在很多情景下,做很多action可能都不会得到任何reward,只有在终态才会得到reward,这样对agent的学习是非常不利的,下面提出几种方法解决这种sparse reward的问题。

reward shaping

为了引导agent,人类自主设计一些reward,需要domain knowledge
ex1. 比如,小孩的得分是最终的reward,但是小孩本身在没有任何experience的时候可能更偏向“玩”这个action,而不是“学习”这个action,我们可以人为设计学习的reward为+1,玩的reward为-1,来引导他学习,最后得到更高的成绩

ex2. 游戏中,最后的杀敌次数是最终的reward,我们可以人为的设计,掉血会扣分,捡到补给包会加分;移动加分,静止扣分(不鼓励停在原地,防止苟活)

curiosity

给模型增加好奇心: 不仅仅希望最大化 r t r_t rt,还要加上人为设计的ICM好奇心部分的reward r t i r_t^i rti
在这里插入图片描述
ICM如何设计:S越难预测, reward越大
· network 1在agent学习的时候需要被fix住
在这里插入图片描述
但是,难预测的s不代表这样的结果一定是好的。(ex. 游戏中 树叶的飘动很难预测,但是不重要)
通过feature extractor, 过滤掉不重要的因素。通过另一个network 2 ,把真实和预测的feature representation ϕ \phi ϕ作为输入,来看训出来的action是不是重要的action。

在这里插入图片描述

curriculum learning

给机器的学习做规划,从简单的题目教到难的题目

reverse curriculum generation

在这里插入图片描述在这里插入图片描述

  1. 给出一个目标状态 s g s_g sg
  2. 在目标附近找一些类似的 s 1 s_1 s1
  3. s 1 s_1 s1作为trajectory的起点 (缩小reward难度)
  4. 去掉那些reward很大的(已经学会的)和reward很小的(太难的)
  5. 重复

hierarchical reinforcement learning

从high level的agent分配一些任务给下层的agent,不断地分解,让下层的agent去完成子任务

ex1:(哈哈哈哈哈)校长->教授->研究生
如果研究生没有办法实现上层定的目标,那上层也不会得到reward;
如果一开始的愿景是发期刊,但是最后成了YouTuber,那可以把愿景改成成为YouTuber…
在这里插入图片描述
ex2. 黄色(目的地) -> 粉色 (上层agent)-> 紫色(下层agent)
在这里插入图片描述
这个任务中,把紫色点到目的地(黄色点)的路线,拆成4个子任务,让下层的agent(紫色点)跟着上层agent的愿景(粉色点)走,最终到达目的地(黄色点)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值