深度强化学习落地指南-第四章

第四章 回报函数设计

  1. 强化学习的任务可以分为两种:一种是定性目标的达成,另外一种是定量目标的达成
    • 定性目标:Agent抵达终点、下棋获胜
    • 定量目标:最大化投资收益、最小化电量消耗
    • 正样本:主线事件对应的样本称为正样本,其余的称为负样本
    • 主线事件:将上述定性目标的达成和定量目标的改善统称为任务的主线事件
  2. DRL算法的本质:回报函数引导下的神经网络对输入状态信息的特征进行深加工以及这些深层特征与值估计和决策相关性的建立过程。
  3. 强化学习是探索和利用的平衡过程,Agent通过探索获得关于环境和任务的局部知识,同时利用这些知识进行更有针对性的探索。

4.2 稀疏回报问题

  1. 为了解决稀疏回报问题,核心思想就是设法提升正样本的出现概率和利用效率。
    • 稀疏回报问题(Sparse Reward Issue):具有高探索难度的任务因缺乏反馈信号造成学习困难的现象被称为稀疏回报问题
  2. 本章的重点就在于完善回报函数设计本身可以有效克服稀疏回报问题

4.3 辅助回报:在主线回报的基础上增加其他奖励项或惩罚项得到的额外回报

4.3.1 子目标回报

1. 贡献度分配 
 - 子目标回报(**贡献度分配**):将任务目标进一步分解为子目标,然后按照子目标各自在促进主线事件实现过程中的贡献大小和作用方向分别给予恰当的奖励或惩罚。
2. 目标分解实例
 - 简单来说,子目标就是两种:一种是鼓励做什么,另外一种是避免做什么
 - 以二维平面上的导航任务举例:
   - 抵达终点这个目标 可以被分解成 当前时刻比上一时刻更靠近终点
   - 规避类子目标 可以被分解成 减少转弯
   - 避免碰撞 可以分解成 当Agetn与最近障碍物之间的距离小于bear_distance时就施加惩罚 
   - 避免电量过低问题 可以分解成  在当前电量下降到bear_battery时持续给予惩罚
 - 针对规避类子目标,进行连续惩罚的效果要优于一次性惩罚。原因如下:
   - 连续惩罚对长期累积回报的影响很容易超过稀疏的一次性惩罚
   - 连续惩罚作为一种即时反馈,往往与状态信息直接相关,而一次性惩罚则由于滞后效应只能做到间接相关,对DRL算法的引导作用更强,更有利于神经网络学习对有效特征的提取。
3. 与状态空间的协同设计 
 - 比如说预防电量过低,就要知道当前剩余电量是多少
 - 为了避免碰撞,就要知道当前位置和周围障碍物的分布情况,如果Agent转了弯,就应该体现在其朝向的变化上。

4.3.2 塑形回报

  1. 基于势能的回报塑形技术(Potential-Based Reward Shaping),能在维持最优策略不变性的前提下加速强化学习算法收敛
  2. r ‾ ( s , a , s ′ ) = r ( s , a , s ′ + γ ϕ ( s ′ ) − ϕ ( s ) ) \overline{r}(s,a,s^{'}) = r(s,a,s^{'} + \gamma\phi(s^{'})-\phi(s)) r(s,a,s)=r(s,a,s+γϕ(s)ϕ(s)),增加一个虹吸状态来使稀疏的回报函数变得稠密起来
    • 主线事件对应的状态被称为虹吸状态,当前状态距离虹吸状态越近 ϕ ( s ) \phi(s) ϕ(s)取值越大,反之则越小
  3. 针对二维平面导航任务,可以选择Agent当前位置与终点位置之间距离的复数作为势能函数,从而使终点位置在该势能函数下成为虹吸状态。再将之前的靠近终点的奖励 r n r^{n} rn改成基于势能的塑形回报。
    • 比针对靠近终点行为的单方面奖励具有更强的引导作用
    • 最主要的就是能防止Agent学会反复靠近、远离终点来获取高额的累积收益的异常行为
  4. 很多奖励采用负反馈的原因(避免出现正反馈容易导致的问题 )
    • 要是采用正反馈,有可能导致Agen在只需要在某一个中间状态下保持原地不动就可以收获比到达终点更高的累积奖励

4.3.3 内驱回报

4.3.4 回报取值的注意事项

  1. 首先 要保证主线回报的核心地位和吸引力,各项辅助回报通常都采用比主线回报更小的绝对值以避免喧宾夺主
  2. 辅助函数尽可能设计成负向惩罚

4.4 回报函数设计的常见陷阱

  1. 回报劫持现象: Agent通过采用投机取巧的策略反复获取局部收益而忘记最初的学习目标
  2. 在实践中,要遵循“一正多负”的原则,就是主线回报使用正向奖励,所有子目标回报项都使用惩罚项
  3. 辅助项的回报项奖励值不宜过大,即不能超过主线回报的奖励

4.5 最优回报问题

  1. 不同回报项之间相对取值的微妙变化也可能对策略的最终性能产生显著影响
  2. 最优回报问题ORP(Optimal Reward Problem)

4.6 基于学习的回报函数

  1. 利用IRL:根据当前的策略产生的样本与专家示范样本之间的差异学习回报函数,并基于后者使用强化学习算法持续优化该策略,不断重复以上过程直至其接近专家策略。
  2. 模仿学习:在IRL的基础上更进一步,直接绕开回报函数去拟合专家策略
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值