【深度强化学习 DRL 快速实践】稀疏奖励问题 sparse reward

在这里插入图片描述

比如,你要用强化学习让一个机械手臂学会开门,训练过程中只有开门成功后才能获得对应的奖励 【sparse reward】

  • 机器人可能探索半天,都在胡乱操控,没有成功开门过一次,所以没获得任何有效奖励,导致无法更新网络

Reward Shaping

核心思路:想办法设计一些辅助的 reward 来引导 agent 实现你想要的目标:例如手臂朝门移动就给一点 reward

  • 但是设计时要很小心,可能会对于任务适得其反,要多加尝试

Curiosity:ICM

核心思路:增加一个 Curiosity 奖励项,鼓励冒险 (偏向导致难以预测的 s t + 1 s_{t+1} st+1 的 action)

  • 进一步,利用一个 Feature Ext 过滤掉无关的环境状态 (具体来说是过滤掉和 action 无关的环境状态)

Curriculum Learning

核心思路:任务由简单开始,逐渐增加难度

Hierarchical Reinforcement Learning

核心思路:从宏观大任务,再拆解完成小任务 (如下图,粉红色的标识就是高层的规划)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值