强化学习打卡之稀疏奖励和模仿学习

强化学习打卡之稀疏奖励和模仿学习

1.稀疏奖励

稀疏奖励就是说状态空间很大的情况下采取特定的少数几个动作才能获得奖励,就会导致agent经过大量学习和尝试都没拿到奖励。(这里我想到用epsilon-greedy去探索不就行了吗),这里李宏毅老师的举例十分的妙,我们人每天或者做的事情都没有奖励,但还是一直学习。针对这个情况的办法Reward Shaping(就是认为设计奖励去引导agent)、Curriculum Learning、Hierarchical RL

Reward Shaping

老师举的例子:某个状态下对一个小孩来说由两个动作:学习和玩耍,小朋友没有太多的经验,大概率会选择玩耍,但是玩耍不会得到奖励,所以需要大人引导他,就骗他说,如果你坐下来念书我就给你吃一个棒棒糖。所以,对他来说,下一个时间点会得到的 reward 就变成是positive 的。所以他就觉得说,好像选择这个 study 是比 play 好的。虽然这并不是真正的 reward,而是其他人骗他的reward,告诉他说你采取这个 action 是好的。Reward shaping 就是你自己想办法 design 一些 reward,它不是环境真正的 reward。(所以不是真正的reward后面会计入累计奖励Gt吗)
在这里插入图片描述

1.Curiosity
每个奖励中间加一个人为的ICM(内在好奇心模块),那现在我们的

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值