强化学习——Modle-free DRL算法

1. Modle-free DRL算法

  • TRPO,PPO
  • DDPG及其拓展(D4PG,TD3等)
  • Soft Q-Learning, Soft Actor-Critic

(1) PPO算法

  • 目前最主流的DRL算法,同时面向离散控制和连续控制 但是PPO是一种on-policy的算法,也就是PPO面临着严重的sample inefficiency,需要巨量的采样才能学习,这对于真实的机器人训练来说,是无法接受的。

(2)DDPG及其拓展

  • 面向连续控制的off policy算法
  • 相对PPO 更sample efficient
  • DDPG训练的是一种确定性策略deterministic policy,即每一个state下都只考虑最优的一个动作

(3)Soft Actor-Critic (SAC)

  • 是面向Maximum Entropy Reinforcement learning 开发的一种off policy算法
  • 和DDPG相比,Soft Actor-Critic使用的是随机策略stochastic policy,相比确定性策略具有一定的优势
  • Soft Actor-Critic在公开的benchmark中取得了非常好的效果,并且能直接应用到真实机器人上
Maximum Entropy Reinforcement learning
  • 最大熵RL,除学习一个policy使得累加的reward期望值最大,还要求policy的每一次输出的action 熵entropy最大

  • 让策略随机化,即输出的每一个action的概率尽可能分散,而不是集中在一个action上

    最大熵maximum entropy的核心思想就是不遗落到任意一个有用的action,有用的trajectory。

Stochastic policy随机策略

Stochastic policy随机策略在实际机器人控制上往往是更好的做法。比如我们让机器人抓取一个水杯,机器人是有无数条路径去实现这个过程的,而并不是只有唯一的一种做法。因此,我们就需要drl算法能够给出一个随机策略,在每一个state上都能输出每一种action的概率,比如有3个action都是最优的,概率一样都最大,那么我们就可以从这些action中随机选择一个做出action输出。
最大熵maximum entropy的核心思想就是不遗落到任意一个有用的action,有用的trajectory。对比DDPG的deterministic policy的做法,看到一个好的就捡起来,差一点的就不要了,而最大熵是都要捡起来,都要考虑

基于最大熵的RL算法有什么优势?

以前用deterministic policy的算法,我们找到了一条最优路径,学习过程也就结束了。现在,我们还要求熵最大,就意味着神经网络需要去explore探索所有可能的最优路径,这可以产生以下多种优势:

  • 学到policy可以作为更复杂具体任务的初始化。因为通过最大熵,policy不仅仅学到一种解决任务的方法,而是所有all。因此这样的policy就更有利于去学习新的任务。比如我们一开始是学走,然后之后要学朝某一个特定方向走。

  • 更强的exploration能力,这是显而易见的,能够更容易的在多模态reward (multimodal
    reward)下找到更好的模式。比如既要求机器人走的好,又要求机器人节约能源

  • 更robust鲁棒,更强的generalization。因为要从不同的方式来探索各种最优的可能性,也因此面对干扰的时候能够更容易做出调整。(干扰会是神经网络学习过程中看到的一种state,既然已经探索到了,学到了就可以更好的做出反应,继续获取高reward)

A3C虽然用到最大熵进行更好做exploration,但是整体的训练目标依然只考虑reward。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值