（RL强化学习）Sparse Reward

最新推荐文章于 2022-05-21 17:56:15 发布

Hoyyyaard

最新推荐文章于 2022-05-21 17:56:15 发布

阅读量327

点赞数

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KNIGHT_HOY/article/details/123932466

版权

强化学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

Sparse Reward

Sparse Reward

很多情况下环境中的reward是稀疏的 agent很难得到reward

Reward Shaping

开发者刻意设计reward
example：比如小孩学习如第二种情况要是study的reward永远是-1 那小孩只会选第一种action 所以可以人为加上一些reward引导小孩去往最高reward的方向走

在这里插入图片描述

Curiosity

ICM鼓励冒险两个state差距越大代表下一步更难预测 reward越大

在这里插入图片描述

但是难以预测的不代表重要的所以需要另一个network去筛除不重要的但难以预测的state
Network1 输入s1,a1,s2放入ICM 输出另一种reward 加到total reward上面
Network2输入 s1 s2的feature 输出一个action预测希望这个预测的action跟原来用于s1 到达 s2 的action越接近越好

在这里插入图片描述

Curriculum Learning

给机器设计learn的顺序由容易到难规划课程
Example；比如一个机械臂把一个板子穿到一个棍子上设计课程由把板子已经插在棍子上开始学然后一步步把板子拿远让机器学

在这里插入图片描述

Reverse Curriculum Generation

sample goal state 之间的一系列origin state closed to goal state
计算每个origin state的reward

在这里插入图片描述

去除极端的reward 寻找reward适中的case
sample from origin state 然后从新sample的点继续出发重复上述步骤

在这里插入图片描述

Hierarchical RL

建立一个agent的阶层体系
高层的agent只提出一些愿景然后给下一级的agent 直到最下层的agent采取action

在这里插入图片描述

每一个agent都会learn 所有agent的目标就是达到那个愿景
如果下层的agent无法达到上层提出的愿景上层agent就会得到penalty
如果某一个agent达到了一个不太好的goal 那么最初的愿景就换成一个不太好的goal 然后结束

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（RL强化学习）Sparse Reward

文章目录Sparse RewardReward ShapingCuriosityCurriculum LearningReverse Curriculum GenerationHierarchical RLSparse Reward很多情况下环境中的reward是稀疏的 agent很难得到rewardReward Shaping开发者刻意设计rewardexample：比如小孩学习如第二种情况要是study的reward永远是-1 那小孩只会选第一种action 所以可以人为加上一些re
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。