深度强化学习落地指南-第四章

最新推荐文章于 2023-12-31 01:41:45 发布

keep wyd

最新推荐文章于 2023-12-31 01:41:45 发布

阅读量167

点赞数 1

分类专栏：深度强化学习落地指南文章标签：学习笔记

本文链接：https://blog.csdn.net/qq_51839555/article/details/134447652

版权

深度强化学习落地指南专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第四章回报函数设计

强化学习的任务可以分为两种：一种是定性目标的达成，另外一种是定量目标的达成
- 定性目标：Agent抵达终点、下棋获胜
- 定量目标：最大化投资收益、最小化电量消耗
- 正样本：主线事件对应的样本称为正样本，其余的称为负样本
- 主线事件：将上述定性目标的达成和定量目标的改善统称为任务的主线事件
DRL算法的本质：回报函数引导下的神经网络对输入状态信息的特征进行深加工以及这些深层特征与值估计和决策相关性的建立过程。
强化学习是探索和利用的平衡过程，Agent通过探索获得关于环境和任务的局部知识，同时利用这些知识进行更有针对性的探索。

4.2 稀疏回报问题

为了解决稀疏回报问题，核心思想就是设法提升正样本的出现概率和利用效率。
- 稀疏回报问题（Sparse Reward Issue）：具有高探索难度的任务因缺乏反馈信号造成学习困难的现象被称为稀疏回报问题
本章的重点就在于完善回报函数设计本身可以有效克服稀疏回报问题

4.3 辅助回报：在主线回报的基础上增加其他奖励项或惩罚项得到的额外回报

4.3.1 子目标回报

1. 贡献度分配 
 - 子目标回报（**贡献度分配**）：将任务目标进一步分解为子目标，然后按照子目标各自在促进主线事件实现过程中的贡献大小和作用方向分别给予恰当的奖励或惩罚。
2. 目标分解实例
 - 简单来说，子目标就是两种：一种是鼓励做什么，另外一种是避免做什么
 - 以二维平面上的导航任务举例：
   - 抵达终点这个目标 可以被分解成 当前时刻比上一时刻更靠近终点
   - 规避类子目标 可以被分解成 减少转弯
   - 避免碰撞 可以分解成 当Agetn与最近障碍物之间的距离小于bear_distance时就施加惩罚 
   - 避免电量过低问题 可以分解成  在当前电量下降到bear_battery时持续给予惩罚
 - 针对规避类子目标，进行连续惩罚的效果要优于一次性惩罚。原因如下：
   - 连续惩罚对长期累积回报的影响很容易超过稀疏的一次性惩罚
   - 连续惩罚作为一种即时反馈，往往与状态信息直接相关，而一次性惩罚则由于滞后效应只能做到间接相关，对DRL算法的引导作用更强，更有利于神经网络学习对有效特征的提取。
3. 与状态空间的协同设计 
 - 比如说预防电量过低，就要知道当前剩余电量是多少
 - 为了避免碰撞，就要知道当前位置和周围障碍物的分布情况，如果Agent转了弯，就应该体现在其朝向的变化上。

4.3.2 塑形回报

基于势能的回报塑形技术（Potential-Based Reward Shaping），能在维持最优策略不变性的前提下加速强化学习算法收敛
$\overline{r}(s,a,s^{'}) = r(s,a,s^{'} + \gamma\phi(s^{'})-\phi(s))$ ,增加一个虹吸状态来使稀疏的回报函数变得稠密起来
- 主线事件对应的状态被称为虹吸状态，当前状态距离虹吸状态越近 $\phi(s)$ 取值越大，反之则越小
针对二维平面导航任务，可以选择Agent当前位置与终点位置之间距离的复数作为势能函数，从而使终点位置在该势能函数下成为虹吸状态。再将之前的靠近终点的奖励 $r^{n}$ 改成基于势能的塑形回报。
- 比针对靠近终点行为的单方面奖励具有更强的引导作用
- 最主要的就是能防止Agent学会反复靠近、远离终点来获取高额的累积收益的异常行为
很多奖励采用负反馈的原因（避免出现正反馈容易导致的问题）
- 要是采用正反馈，有可能导致Agen在只需要在某一个中间状态下保持原地不动就可以收获比到达终点更高的累积奖励