深度强化学习落地指南-第三章-状态空间设计

第三章 状态空间设计

  1. 直接相关信息:回报函数中某个奖励项或惩罚项即时联动的状态信息
  2. 简介相关信息:回报函数中没有即时联动的状态信息
  3. 书中的导航任务有三个奖惩措施,一个是衡量Agent到终点的距离、一个是剩余电量、一个是Agent与附近障碍物之间的距离
    • 原先的碰撞只是在发生碰撞的情况下进行一次性反馈惩罚,但是假如我们把这个碰撞惩罚修改为当 d d i m < D ( 安全距离 ) d_{dim} < D(安全距离) ddim<D(安全距离)小于一定安全距离的时候就持续性的给一个惩罚, d d i m d_{dim} ddim就变成了一个直接相关信息
    • 此外,如果再增加一项(near)接近终点的奖励r,只要Agent字当前时刻的位置比前一时刻的位置距离终点更加接近,就给予一定的奖励,那么文中的p和g也就变成了直接相关信息
  4. 小trick:尽可能把间接相关信息转换为直接相关信息,DRL算法就更容易学会安全、高效的完成任务
  5. 强化学习当中的Oracle信息的特点和用途:
    • 最优策略指导:Oracle信息可以提供关于执行哪些动作会达到最佳结果的指导。在强化学习中,这可能意味着知道在任何给定状态下哪个动作会最大化长期回报。
    • 环境模型:在一些情况下,Oracle信息可能涉及环境的完整知识,比如环境的所有状态及其转移概率。这在模型基础的强化学习中尤其有用。
    • 评估与基准:Oracle信息通常用作评估学习算法性能的基准。通过与Oracle的最优表现比较,研究者可以评估他们的算法是否接近最佳可能的性能。
    • 算法设计:在某些情况下,Oracle信息可以用来设计或改进强化学习算法,尤其是在处理复杂或不确定的环境时。
  6. 强化学习当中的Oracle信息的实际使用方式:
    • 作为训练期间的指导:Oracle信息可以在训练期间用作指导,帮助智能体快速学习有效策略。例如,在监督学习的预训练阶段,可以使用Oracle提供的最优策略数据来训练智能体的神经网络,从而让它在开始实际的强化学习任务之前就具有一定的策略基础。
    • 用于奖励塑形(Reward Shaping):在奖励设计中使用Oracle信息来引导智能体朝向最优策略。通过调整奖励函数,使得智能体在采取接近Oracle建议的动作时获得额外的正反馈。
    • 作为模型的一部分:在基于模型的强化学习中,Oracle可以提供环境模型的信息,例如状态转移概率和可能的奖励。这些信息可以用来预测环境的未来状态,帮助智能体做出更好的决策。
    • 作为策略改进的参考:在策略迭代或值函数迭代的过程中,Oracle信息可以用来评估和改进当前策略。例如,通过比较当前策略和Oracle策略在相同状态下的行为,可以识别和修正策略中的不足。
    • 用于启发式搜索:在某些复杂的决策问题中,Oracle信息可以用来指导搜索过程,如在棋类游戏中使用专家系统提供的启发式评估函数来指导搜索树的剪枝。
    • 辅助探索策略:在强化学习的探索过程中,Oracle信息可以帮助智能体区分有价值的探索方向和不太可能带来好结果的方向,从而提高探索的效率。
  7. 提高状态空间设计的泛化性:
    • 抽象化预处理
      • 围棋棋盘的抽象化处理,使其可以迁移到任何属性的围棋棋盘上
      • 可以把 二维平面导航任务中的Agent的坐标和终点的坐标 合并成一个 相对坐标(就是二者之间的距离),这样就可以使Agent学到更为通用的导航知识
      • 为了避免客户要求降低或者提升绝对电量的要求,我们可以在训练的时候将绝对电量修改为相对电量。通过一个比值关系来提示Agent及早规划进行充电,如此一来即时充电预警电量被淋湿改变也不会影响原油策略的使用
    • 形式统一
      • 一般的组织方式是将所有的状态信息拼接成一维向量,然后输入全连接神经网络。然而这种方式最大的缺点就是:
        1. 容易将策略限制在特定场景之下,如果状态空间中有一个量改变了,那么状态向量维度和网络结构也要随之变化,导致原有策略彻底失效
        2. 表达能力有限,由于环境中障碍物的大小、形状和数量、位置等分布各异,难以通过这种方式准确表达出来。
      • 最好采用“留空式”信息组织形式,设计之初应该充分考虑到所有可能性并设计一套冗余模版,使其每个位置都有固定的、独一无二的含义,然后将当前可用的状态信息填到相应位置,空白位置则以常数填充,如此一来,就可以用统一维度的状态信息应对各种可能的状态变化。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值