稀疏奖励问题解决方案总览

深度解析:HER、ICM、RND与Go-Explore:强化学习在稀疏奖励环境中的探索策略
本文详细介绍了四种强化学习算法:HER、ICM、RND和Go-Explore,它们在解决稀疏奖励和连续动作空间任务中的优势、工作原理、适用范围及不适用场景。这些算法通过增强探索和利用,提高在复杂环境中的学习效率。

方案简介

HER (Hindsight Experience Replay) - 2017年

思想

HER(Hindsight Experience Replay)是一种特别设计用于解决稀疏奖励问题的强化学习算法。它主要用于那些具有高度稀疏奖励和延迟奖励的任务,特别是在连续动作空间中,如机械臂抓取、路径规划等。

工作原理

  1. 经验回放:HER在经验回放(Experience Replay)的基础上进行了扩展。经验回放是一种将过去的经验(状态、动作、奖励等)存储在一个回放缓冲区(Replay Buffer)中,以供后续训练的方法。
  2. 目标重标定:在每个回合结束后,HER会重新解释该回合中智能体的行为,将实际到达的状态作为新的目标,并据此重新计算奖励。
  3. 多样性:通过这种方式,HER实际上生成了多种不同目标下的经验,增加了训练样本的多样性,从而提高了样本效率。

适用范围

  1. 具有明确目标状态的任务(例如,机器人抓取、路径规划等)。
  2. 高度稀疏和延迟奖励的任务。
  3. 连续动作空间。

不适用范围

  1. 离散状态和动作空间

HER 主要设计用于连续状态空间,并且最有效的应用通常发生在这样的环境中。在离散状态和动作空间中,HER 可能不是最佳选择,因为在这些设置下其他方法(如表格学习或模型搜索)可能更有效。

2. 无明确目标的任务

HER 主要用于具有明确目标的任务,这些任务通常有一个状态或状态子集作为目标。对于没有明确目标的任务(比如,不是到达某个特定状态,而是最大化某种度量,如在平衡车问题中维持平衡),HER 可能不适用。

3. 完全观察不到的环境

在一些问题中,你可能无法观察到足够的信息来明确地定义一个“已经实现的目标”。在这些情况下,使用 HER 可能会很困难。

4. 高计算复杂性

HER 通常需要存储额外的转换和进行额外的学习步骤,这可能会增加算法的计算复杂性。对于计算资源有限的应用,这可能是一个问题。

5. 非稀疏奖励问题

虽然 HER 可以在非稀疏奖励设置下使用,但它可能不是最有效的解决方案,因为其他方法(如基于值的方法或策略梯度方法)可能更适合这种类型的问题。

6. 需要细致调优

根据问题的特性,HER 的有效性可能会受到如何采样“实现的目标”的影响。这可能需要进行大量的实验和调优,才能找到最有效的方式来使用 HER。

总体而言,尽管 HER 是一个非常有用的工具,但在选择是否使用它之前,最好先仔细考虑问题的特性和需求。

举例:在Atari游戏中的应用

  • 不适用性:由于Atari游戏通常没有清晰定义的“目标状态”,HER在这类游戏中不太适用。HER更多地应用于那些有明确目标状态的任务,如机器人学习。
  • 离散动作空间:Atari游戏大多在离散的动作空间中运行,而HER通常在连续的动作空间中表现得更好。

实现步骤

  1. 执行一个回合,收集 ** (s, a, r, s', g)**(状态、动作、奖励、新状态、目标)。
  2. 存储这些经验到经验回放缓冲区。
  3. 在回合结束后,选取一些实际达到的状态作为新的目标 ** g'**。
  4. 用新的目标 g' 重新计算奖励,并生成新的经验 ** (s, a, r', s', g')**。
  5. 将新生成的经验也存储到经验回放缓冲区。

目标如何设定

  1. 环境本身:像“抓取”或“推动”这样的任务通常有明确的目标状态,比如机械臂需要抓住某个物体。这些目标通常是由环境定义的。
  2. 任务定义:在多任务环境中,目标可能是动态分配的。例如,一个机器人可能有多个可选择的目标位置。
  3. 子任务:在分层或多任务学习中,子任务本身可能有各自的目标。
  4. 人为指定:在一些应用场景中,你可能需要人为地定义目标,尤其是在环境不直接提供目标的情况下。

ICM (Intrinsic Curiosity Module) - 2017年

思想

ICM 旨在通过生成内在奖励来促进智能体(agent)的探索行为。这些内在奖励是基于智能体对环境的模型(或预测)的不确定性或误差来计算的。简而言之,如果智能体无法准确地预测其动作的结果,那么该动作会得到高的内在奖励,以鼓励智能体进一步探索。

工作原理

ICM 主要由两部分组成:

前向模型(Forward Model)

  • 作用:

    1. 状态预测:前向模型尝试从当前状态和执行的动作预测下一个状态(或其特征表示)。

    2. 内在奖励生成:当预测与实际观察到的下一个状态有误差时,该误差用作内在奖励。预测越不准确,误差越大,意味着该状态-动作对更值得探索,因此生成更高的内在奖励。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值