强化学习——Modle-free DRL算法

最新推荐文章于 2024-02-26 23:11:49 发布

Yolandalt7777777

最新推荐文章于 2024-02-26 23:11:49 发布

阅读量470

点赞数

分类专栏：学习笔记文章标签：算法人工智能

本文链接：https://blog.csdn.net/Yolandalt7777777/article/details/127172518

版权

学习笔记专栏收录该内容

18 篇文章 1 订阅

订阅专栏

1. Modle-free DRL算法

TRPO,PPO
DDPG及其拓展（D4PG,TD3等）
Soft Q-Learning, Soft Actor-Critic

（1） PPO算法

目前最主流的DRL算法，同时面向离散控制和连续控制但是PPO是一种on-policy的算法，也就是PPO面临着严重的sample inefficiency，需要巨量的采样才能学习，这对于真实的机器人训练来说，是无法接受的。

（2）DDPG及其拓展

面向连续控制的off policy算法
相对PPO 更sample efficient
DDPG训练的是一种确定性策略deterministic policy，即每一个state下都只考虑最优的一个动作

（3）Soft Actor-Critic (SAC)

是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法
和DDPG相比，Soft Actor-Critic使用的是随机策略stochastic policy，相比确定性策略具有一定的优势
Soft Actor-Critic在公开的benchmark中取得了非常好的效果，并且能直接应用到真实机器人上

Maximum Entropy Reinforcement learning

最大熵RL，除学习一个policy使得累加的reward期望值最大，还要求policy的每一次输出的action 熵entropy最大
让策略随机化，即输出的每一个action的概率尽可能分散，而不是集中在一个action上

最大熵maximum entropy的核心思想就是不遗落到任意一个有用的action，有用的trajectory。

Stochastic policy随机策略

Stochastic policy随机策略在实际机器人控制上往往是更好的做法。比如我们让机器人抓取一个水杯，机器人是有无数条路径去实现这个过程的，而并不是只有唯一的一种做法。因此，我们就需要drl算法能够给出一个随机策略，在每一个state上都能输出每一种action的概率，比如有3个action都是最优的，概率一样都最大，那么我们就可以从这些action中随机选择一个做出action输出。
最大熵maximum entropy的核心思想就是不遗落到任意一个有用的action，有用的trajectory。对比DDPG的deterministic policy的做法，看到一个好的就捡起来，差一点的就不要了，而最大熵是都要捡起来，都要考虑

基于最大熵的RL算法有什么优势？

以前用deterministic policy的算法，我们找到了一条最优路径，学习过程也就结束了。现在，我们还要求熵最大，就意味着神经网络需要去explore探索所有可能的最优路径，这可以产生以下多种优势：

学到policy可以作为更复杂具体任务的初始化。因为通过最大熵，policy不仅仅学到一种解决任务的方法，而是所有all。因此这样的policy就更有利于去学习新的任务。比如我们一开始是学走，然后之后要学朝某一个特定方向走。
更强的exploration能力，这是显而易见的，能够更容易的在多模态reward （multimodal
reward）下找到更好的模式。比如既要求机器人走的好，又要求机器人节约能源
更robust鲁棒，更强的generalization。因为要从不同的方式来探索各种最优的可能性，也因此面对干扰的时候能够更容易做出调整。（干扰会是神经网络学习过程中看到的一种state，既然已经探索到了，学到了就可以更好的做出反应，继续获取高reward）

A3C虽然用到最大熵进行更好做exploration，但是整体的训练目标依然只考虑reward。