【深度强化学习】GAIL 与 IRL 的理解

GAIL 与 IRL 的理解

Inverse Reinforcement Learning

逆强化学习,顾名思义,就是与强化学习的过程反着走。

Reinforcement Learning

强化学习的过程一般如下:

  1. 首先我们有一个可以互动的环境;
  2. 然后我们定义/设置一个奖励函数;
  3. Actor 通过不断与环境互动,来最大化奖励函数,找到一个最优的 actor。
    在这里插入图片描述

Inverse Reinforcement Learning

逆强化学习的思想与强化学习相反。我们现在不知道奖励函数是什么(不知道如何设置奖励函数),但有专家数据。我们假设 **专家的示例是唯一最优的!**因此,我们需要从专家的示例中学习到奖励函数,然后再通过强化学习方法最大化这个学到的奖励函数,最终得到最优的 actor。
在这里插入图片描述

具体框架如下:

  1. 首先我们有专家策略 π ^ \hat{\pi} π^ 的数据 { τ ^ 1 , τ ^ 2 , ⋯   , τ ^ N } \left\{\hat{\tau}_{1}, \hat{\tau}_{2}, \cdots, \hat{\tau}_{N}\right\} {τ^1,τ^2,,τ^N}
  2. 然后我们设置一个 actor,也去与环境交互,得到 { τ 1 , τ 2 , ⋯   , τ N } \left\{\tau_{1}, \tau_{2}, \cdots, \tau_{N}\right\} {τ1,τ2,,τN}
  3. 然后根据 1 和 2 反推出 Reward Function R R R;根据原则:The expert is always the best.
  4. 然后,我们去最大化这个奖励函数 R R R(使用强化学习方法),学出一个新的 actor,这个 actor 再去交互,返回步骤 2。
    在这里插入图片描述

Generative Adversarial Imitation Learning

GAIL 的思想就是将 GAN 运用在了 IRL 上。

Generative Adversarial Network

GAN 的思想就是我们训练一个生成器 G G G,它从一个普通的分布逐渐生成与现有数据分布相似的分布。
在这里插入图片描述

Generative Adversarial Imitation Learning

同样,我们希望我们的 actor 能够模仿专家。换句话说,就是 actor 产生的轨迹,与专家产生的轨迹越相似越好。

这里的 “相似” 指的是轨迹的分布相似!
在这里插入图片描述

具体过程如下图所示,跟我们上面讨论的 IRL 的图很像。Actor 就对应了这里的 Generator,Reward Function 就对应了这里的 Discriminator。
在这里插入图片描述

Discriminator 的训练

在判别器中,我们需要对每个轨迹打分,具体方法是可以将对轨迹的打分拆解为对 state-action 的打分,即 d ( s , a ) d(s,a) d(s,a)。然后在结合起来作为整个轨迹的打分。

训练目标是希望专家的得分更高,而 actor 的得分更低。
在这里插入图片描述

Generator 的训练

生成器的目标是使得 actor 的得分不断增大。理论上可以直接对 actor 的参数进行梯度上升的方法,来提升 D ( τ i ) D(\tau_i) D(τi) 的得分。但实际上不能这样计算,按照 policy gradient 的 trick,可展开为右边的式子。
在这里插入图片描述

Algorithm

整个算法的流程大致如下:
在这里插入图片描述

Reference

  1. PPT:https://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2017/Lecture/IRL%20(v3).pdf
  2. Video:https://www.youtube.com/watch?v=rOho-2oJFeA
深度强化学习是结合了深度学习和强化学习的一种方法,用于解决具有高维状态空间和动作空间的复杂任务。最新的深度强化学习算法包括以下几种: 1. 深度Q网络(Deep Q-Network,DQN):DQN是深度强化学习中的经典算法,通过使用深度神经网络来近似Q值函数,实现了对高维状态空间的建模。DQN的改进版本包括Double DQN、Dueling DQN等。 2. 策略梯度方法:策略梯度方法通过直接优化策略函数来学习最优策略。其中,Proximal Policy Optimization(PPO)和Trust Region Policy Optimization(TRPO)是目前应用较广泛的算法。 3. 深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG):DDPG是一种用于连续动作空间的深度强化学习算法。它通过同时学习一个确定性策略和一个Q值函数来实现对连续动作空间的建模。 4. 深度强化学习中的模型(Model):传统的强化学习算法通常需要环境进行大量的交互来学习策略,而模型可以用来预测环境的动态变化,从而减少环境的交互次数。最新的研究中,一些算法如Imagination-Augmented Agents(I2A)和World Models等将模型引入到深度强化学习中。 5. 深度逆强化学习(Deep Inverse Reinforcement Learning,DIRL):DIRL是一种通过观察专家的行为来学习任务奖励函数的方法。最新的研究中,一些算法如Generative Adversarial Imitation Learning(GAIL)和Maximum Entropy Inverse Reinforcement Learning(MaxEnt IRL)等被提出来解决这个问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

见见大魔王

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值