1. Modle-free DRL算法
- TRPO,PPO
- DDPG及其拓展(D4PG,TD3等)
- Soft Q-Learning, Soft Actor-Critic
(1) PPO算法
- 目前最主流的DRL算法,同时面向离散控制和连续控制 但是PPO是一种on-policy的算法,也就是PPO面临着严重的sample inefficiency,需要巨量的采样才能学习,这对于真实的机器人训练来说,是无法接受的。
(2)DDPG及其拓展
- 面向连续控制的off policy算法
- 相对PPO 更sample efficient
- DDPG训练的是一种确定性策略deterministic policy,即每一个state下都只考虑最优的一个动作
(3)Soft Actor-Critic (SAC)
- 是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法
- 和DDPG相比,Soft Actor-Critic使用的是随机策略stochastic policy,相比确定性策略具有一定的优势
- Soft Actor-Critic在公开的benchmark中取得了非常好的效果,并且能直接应用到真实机器人上
Maximum Entropy Reinforcement learning
-
最大熵RL,除学习一个policy使得累加的reward期望值最大,还要求policy的每一次输出的action 熵entropy最大
-
让策略随机化,即输出的每一个action的概率尽可能分散,而不是集中在一个action上
最大熵maximum entropy的核心思想就是不遗落到任意一个有用的action,有用的trajectory。
Stochastic policy随机策略
Stochastic policy随机策略在实际机器人控制上往往是更好的做法。比如我们让机器人抓取一个水杯,机器人是有无数条路径去实现这个过程的,而并不是只有唯一的一种做法。因此,我们就需要drl算法能够给出一个随机策略,在每一个state上都能输出每一种action的概率,比如有3个action都是最优的,概率一样都最大,那么我们就可以从这些action中随机选择一个做出action输出。
最大熵maximum entropy的核心思想就是不遗落到任意一个有用的action,有用的trajectory。对比DDPG的deterministic policy的做法,看到一个好的就捡起来,差一点的就不要了,而最大熵是都要捡起来,都要考虑
基于最大熵的RL算法有什么优势?
以前用deterministic policy的算法,我们找到了一条最优路径,学习过程也就结束了。现在,我们还要求熵最大,就意味着神经网络需要去explore探索所有可能的最优路径,这可以产生以下多种优势:
-
学到policy可以作为更复杂具体任务的初始化。因为通过最大熵,policy不仅仅学到一种解决任务的方法,而是所有all。因此这样的policy就更有利于去学习新的任务。比如我们一开始是学走,然后之后要学朝某一个特定方向走。
-
更强的exploration能力,这是显而易见的,能够更容易的在多模态reward (multimodal
reward)下找到更好的模式。比如既要求机器人走的好,又要求机器人节约能源 -
更robust鲁棒,更强的generalization。因为要从不同的方式来探索各种最优的可能性,也因此面对干扰的时候能够更容易做出调整。(干扰会是神经网络学习过程中看到的一种state,既然已经探索到了,学到了就可以更好的做出反应,继续获取高reward)
A3C虽然用到最大熵进行更好做exploration,但是整体的训练目标依然只考虑reward。