强化学习待解决问题和主流Trick整理


在这里插入图片描述

一、四大待解决问题

序号待解决问题进一步理解产生原因本质
1非独立同分布数据使神经网络难以收敛由于训练分布完全依赖于序贯决策样本,导致训练出的数据分布局部化 ,即不同于完整状态-动作空间分布序贯探索决策中有些动作频繁被执行,而有些动作几乎从不会被采样采样
数据分布
2不断更新的目标使得每次得到的策略也在变化policytarget震荡而震荡由于target的估计不可避免地存在误差,导致policy的更新出现震荡target估计不准
3异构的过估计对策略产生不良影响过估计会使Q表或神经网络参数w误差更大,从而影响策略Bellman optimailty Eq中的max操作在实际迭代时由于估计不准而出现Maximization Biastarget估计不准
4对于全状态-动作空间的采样效率低更优的采样方法决定以更少的采样频率采样到更完整的空间分布没有基于历史采样的全部信息作出采样规划采样
数据分布

在这里插入图片描述

二、DRL主流Trick

序号Trick切入点缓解问题应用场景备注
1经验回放采样方式①非独立同分布DQNOff-policy
2.1并行探索(回传梯度)采样方式①非独立同分布A3COff/On-policy
2.2并行探索(回传经历)采样方式①非独立同分布DPPO/IMPALA同上
3分离target网络延迟target更新targetpolicy的更新震荡DQN同上
4延迟policy更新延迟policy更新targetpolicy的更新震荡TD3同上
5受限policy更新policy在信赖域中更新targetpolicy的更新震荡TRPO/PPO同上
6clip重要性采样率ρ受限重要性采样率targetpolicy的更新震荡PPOOff-policy
7Double Qtarget中的动作选择target过估计DDQN/DDPG
8Bounded Double Qtarget最优动作下界target过估计TD3/SAC
9Action Distributiontarget中的动作选择target过估计DSAC
10.1正则化策略熵策略的探索性④ 采样效率A3C
10.2值函数引入策略熵策略的探索性④ 采样效率SAC
11Prioritized Sweeping优先级采样④ 采样效率PER-DQN
12连续动作+Noise连续动作估值泛化性Noise DQN/DDPG/TD3
13Advantage函数减小方差Dueling DQN/TRPO/A3C/PPO
14n-step TD Learing平衡方差与偏差PPO
15资格迹累计值函数梯度实现Online

主流Trick应用场景

以下不一定全面,部分可能有遗忘

序号TrickDQNDDQNDueling DQNNoise DQNPER DQNDDPGTD3TRPOPPODPPOIMPALAA3CSACDSAC
1经验回放
2.1并行探索
(回传梯度)
2.2并行探索
(回传经历)
3分离target网络
4延迟policy更新
5受限policy更新
6clip重要性
采样率ρ
7Double Q
8Bounded
Double Q
9Action Distribution
10.1正则化策略熵
10.2值函数引入策略熵
11Prioritized Sweeping
12连续动作+Noise
13Advantage函数
14n-step TD Learing
15资格迹

在这里插入图片描述

2.1 序贯决策导致的非独立同分布问题

【产生原因】序贯探索决策中有些动作频繁被执行,而有些动作几乎从不会被采样。由于训练分布完全依赖于序贯决策样本,导致训练出的数据分布局部化,即与完整状态-动作空间分布不同

在这里插入图片描述

【Trick 1】经验回放

  • 每次episode,相当于采样每个agent的完整经历,每个agent的经历不同,不同agent的完整经历可视为一个局部分布
  • 而经验回放机制就是随机抽取某个agent的某个经历,从而采样到更近似完整state-action空间的分布

在这里插入图片描述

【Trick 2】并行探索

在这里插入图片描述

2.2 Policy随Target震荡而震荡问题

【产生原因】:由于Target的估计不可避免地存在误差,导致Policy的更新出现震荡
在这里插入图片描述

【Trick 3】分离target网络(主要缓解target震荡更新导致的policy震荡问题)

  • 背景:target的估计误差,随迭代时间增长而大概率逐渐降低

  • target的估计尤其在迭代初期存在较大误差,不如先让其训练一阶段再更新,从而缓解策略震荡问题

  • 本质:延迟target更新
    在这里插入图片描述

【Trick 4】延迟policy更新

【Trick 5】受限policy更新

  • 动机:由于在策略梯度中,更新策略参数θ,采用线搜索先选方向后选步长,容易选出次优步长,导致更新较差策略,恶性循环。而通过信赖域方法,先确定步长,再确定方向可保证单调性策略变优

【Trick 6】 裁剪重要性采样率ρ

  • Off-policy采用的Improtance Sampling ratio不稳定,所以PPO采用Clip操作避免因为ratio分子或分母由于采样有限出现极端数字,导致比率过大或过小,遂采用剪裁Clipratio限制在[1 - epsilon, 1 + epsilon]中,增加稳定性
    在这里插入图片描述

在这里插入图片描述

2.3 Target过估计从而影响策略问题

【产生原因】: Bellman optimailty Eq中的max操作在实际迭代时由于估计不准而出现最大化偏差(Maximization Bias)

Q t a r g e t ( s , a ) = R + max ⁡ a ′ Q ( s ′ , a ′ ) Q_{target}(s,a) = R + \max_{a'} Q(s',a') Qtarget(s,a)=R+amaxQ(s,a)
在这里插入图片描述

【Trick 7】 Double Learning思想,本质为按动作分布选取动作,缓解实际迭代中因估计不准而错误地将次优动作Q值作为target的估值带来的偏差问题
在这里插入图片描述

【Trick 7】有界Double Q

在这里插入图片描述

两者的区别如下图,说白了就是宁愿低估,也不愿高估。但这种trick对该问题的缓解很有限,治标不治本

  • 左图—Double Q
  • 右图—Bounded Double Q,对于target的估计更加保守
    在这里插入图片描述

【Trick 9】按动作价值分布选取动作,个人理解与Double Q本质相同,但该方法直击本质
在这里插入图片描述

2.4 数据采样效率问题

【产生原因】:没有基于历史采样的全部信息作出采样规划

  • ①agent需记录历史采样过程形成采样地图
  • ②均匀采样
    在这里插入图片描述

【Trick 10】正则化熵:即用策略熵来度量策略的随机性,由于我们希望采样过程中agent尽可能采样到全空间中更多的信息,因此我们更希望agent采样过程中注重探索性采样,即策略的不确定性越大则采样信息越全。为此在RL总目标函数上,我们在累计奖赏基础上加上策略的熵,以希望agent执行更多探索性的动作,采样到更全面的信息

【Trick 11】在每个状态的值函数上增加策略熵
在这里插入图片描述

三、典型DRL算法总结

在这里插入图片描述

四、典型DRL算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

致谢

感谢李升波教授开设的强化学习课程和PPT

  • 8
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SL_World

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值