强化学习打卡之稀疏奖励和模仿学习

最新推荐文章于 2022-12-21 15:10:52 发布

小白684

最新推荐文章于 2022-12-21 15:10:52 发布

阅读量1.1k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41560321/article/details/109520712

版权

强化学习打卡之稀疏奖励和模仿学习

1.稀疏奖励

稀疏奖励就是说状态空间很大的情况下采取特定的少数几个动作才能获得奖励，就会导致agent经过大量学习和尝试都没拿到奖励。（这里我想到用epsilon-greedy去探索不就行了吗），这里李宏毅老师的举例十分的妙，我们人每天或者做的事情都没有奖励，但还是一直学习。针对这个情况的办法Reward Shaping（就是认为设计奖励去引导agent）、Curriculum Learning、Hierarchical RL

Reward Shaping

老师举的例子：某个状态下对一个小孩来说由两个动作：学习和玩耍，小朋友没有太多的经验，大概率会选择玩耍，但是玩耍不会得到奖励，所以需要大人引导他，就骗他说，如果你坐下来念书我就给你吃一个棒棒糖。所以，对他来说，下一个时间点会得到的 reward 就变成是positive 的。所以他就觉得说，好像选择这个 study 是比 play 好的。虽然这并不是真正的 reward，而是其他人骗他的reward，告诉他说你采取这个 action 是好的。Reward shaping 就是你自己想办法 design 一些 reward，它不是环境真正的 reward。（所以不是真正的reward后面会计入累计奖励Gt吗）
在这里插入图片描述

1.Curiosity
每个奖励中间加一个人为的ICM(内在好奇心模块)，那现在我们的

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
强化学习打卡之稀疏奖励和模仿学习

强化学习打卡之稀疏奖励和模仿学习1.稀疏奖励稀疏奖励就是说状态空间很大的情况下采取特定的少数几个动作才能获得奖励，就会导致agent经过大量学习和尝试都没拿到奖励。（这里我想到用epsilon-greedy去探索不就行了吗），这里李宏毅老师的举例十分的妙，我们人每天或者做的事情都没有奖励，但还是一直学习。针对这个情况的办法Reward Shaping（就是认为设计奖励去引导agent）、Curriculum Learning、Hierarchical RLReward Shaping老师举的例子：某
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。