模仿学习笔记：生成判别模仿学习 Generative Adversarial Imitation Learning, GAIL

最新推荐文章于 2025-02-20 22:58:45 发布

UQI-LIUWJ

最新推荐文章于 2025-02-20 22:58:45 发布

阅读量1.5k

点赞数 2

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/125065061

版权

强化学习专栏收录该内容

58 篇文章

订阅专栏

本文回顾了GAN的基本原理，并详细介绍了GAIL（生成判别模仿学习）如何利用生成器和判别器在智能体模仿学习中的角色。GAIL以专家轨迹数据为训练样本，通过策略网络和判别器优化，实现智能体行为的高效学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 GAN （回顾）

GAIL 的设计基于生成判别网络 ( GAN)。这里简单地回顾一下GAN，详细的可见 NTU 课程笔记 7454 GAN_UQI-LIUWJ的博客-CSDN博客

GAN由生成器 (Generator) 和判别器 (Discriminator)组成，它们各是一个神经网络。

——>生成器负责生成假的样本

——>判别器负责判定一个样本是真是假。

我们的目标是希望生成器生成的内容可以“以假乱真”

1.1 生成器

生成器 记作 a = G ( s ; θ ) ，其中 θ 是参数。它的输入是向量 s ，向量的每一个元素从均匀分布 $U(-1,1)$ 或标准正态分布 N (0 , 1) 中抽取。生成器的输出是数据（比如图片）x。

1.2 判别器

判别器 记作 $\hat{p}=D(x;\phi)$ ，其中 ϕ 是参数。

它的输入是图片 x；输出 $\hat{p}$ 是介于 0 到 1 之间的概率值，0 表示“假的”， 1 表示“真的”。

判别器的功能是二分类器。

1.3 训练生成器

将生成器与判别器相连，固定住判别器的参数，只更新生成器的参数 θ，使得生成的图片 x = G(s; θ) 在判别器的眼里更像真的。

对于任意一个随机生成的向量 s，应该改变 θ，使得判别器的输出 $\hat{p}=D(x;\phi)$ 尽量接近 1

可以用如下函数作为loss function：

我们希望此时D(x;Φ)越大越好，也就是E(s;θ)越小越好

所以我们用梯度下降来更新生成器的θ

1.4 训练判别器

判别器的本质是个二分类器，它的输出值 $\hat{p}=D(x;\phi)$ 表示对图片真伪的预测；
- $\hat{p}$ 接近 1 表示“真”，
- $\hat{p}$ 接近 0 表示“假”。

判别器的训练如下图所示。

从真实数据集中抽取一个样本，记作 $x^{real}$ 。
再随机生成一个向量 s，用生成器生成 $x^{fake}=G(s;\theta)$
训练判别器的目标是改进参数 ϕ，让 $D(x^{real};\phi)$ 更接近 1（真），让 $D(x^{fake};\phi)$ 更接近 0 （假）。
——>也就是说让判别器的分类结果更准确，更好区分真实图片和生成的假图片。

此时的损失函数如下所示

不难发现，判别器越准确，损失函数F越小

所以我们也用梯度下降更新判别器的θ

1.5 整体训练流程

2 生成判别模仿学习 Generative Adversarial Imitation Learning, GAIL

2.1 训练数据

GAIL 的训练数据是被模仿的对象（人类专家）操作智能体得到的轨迹

数据集中有 k 条轨迹，把数据集记作：

2.2 生成器

GAIL 的生成器是策略网络 π ( a | s ; θ )

策略网络的输入是状态 s，输出是一个向量：

输出向量 f 的维度是动作空间的大小 A ，它的每个元素对应一个动作，表示执行该动作

的概率。

给定初始状态 s 1 ，并让智能体与环境交互，可以得到一条轨迹：

其中动作是根据策略网络抽样得到的, $a_t \sim \pi(\cdot|s_t;\theta), \forall t=1,\cdots, n$

下一时刻的状态是环境根据状态转移函数计算出来的

2.3 判别器

GAIL 的判别器记作 D ( s, a ; ϕ )

判别器的输入是状态 s，输出是一个向量：

输出向量 $\hat{p}$ 的维度是动作空间的大小 A ，它的每个元素对应一个动作 a ，把一个元素记作：

$\hat{p_a}$ 接近 1 表示 ( s, a ) 为“真”，即动作 a 是人类专家做的。

$\hat{p_a}$ 接近 0 表示 ( s, a ) 为“假”，即动作 a 是策略网络生成的。

2.4 GAIL的训练

2.4.1 训练生成器

设 $\theta_{now}$ 是当前策略网络的参数。用策略网络 $\pi(a|s;\theta_{now})$ 控制智能体与环境交互，得到一条轨迹：

用判别器评价 $(s_t,a_t)$ 的真实情况， $D(s_t,a_t;\phi)$ 越大，说明 $(s_t,a_t)$ 在判别器的眼里越真实。

我们记第t步的回报为：

于是我们的轨迹可以变成

有不同的方法来更新策略网络的参数θ

在GAIL中，使用的是TRPO

强化学习笔记：置信域策略优化 TRPO_UQI-LIUWJ的博客-CSDN博客

即目标函数为

通过解带约束的最大化问题，得到新的参数

2.4.2 训练判别器

训练判别器的目的是让它能区分真的轨迹与生成的轨迹

我们从训练数据中抽样一条轨迹：

同时用策略网络控制智能体和环境交互，得到另一条轨迹，记作

注意real和fake轨迹的长度可能不一样

同样地，我们希望 $D(s_t^{real},a_t^{real};\phi)$ 尽量趋近于1， $D(s_t^{fake},a_t^{fake};\phi)$ 尽量趋近于0

于是我们定义损失函数

我们希望损失函数尽量小，也就是说判别器能区分开真假轨迹。可以做梯度下降来更新判别器的参数Φ

2.4.3 整体训练流程

每一轮训练更新一个生成器，更新一次判别器。训练重复以下步骤，直到收敛。

博客等级

码龄8年

1596
原创

5614
点赞

1万+
收藏

3563
粉丝

关注

私信

热门文章

分类专栏

最新评论

机器学习笔记（聚类）层次聚类 Agglomerative Clutsering（Single-linkage、Complete-linkage，Group average）
m0_57187185: 很有帮助！谢谢博主
论文笔记：Universal Value Function Approximators
Venus-ww: 算法1，看上去只是用强化学习框架来收集样本来更新UVFA用的，如何用于强化学习呢，比如，如何和DQN结合呢？
论文笔记：Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond
qq418674358: 博主，请问下，我想找一个模型进行gps轨迹分类，用来区分是电瓶车的gps轨迹，还是汽车的gps轨迹，有什么可以直接用的模型吗，多谢了
数据集：深圳ETC数据（OD数据、轨迹数据）
是个例外: 你好，Description for Urban Data Release V2的数据集可以分享一下吗，我下载不了。
强化学习笔记：Sarsa算法
weixin_43831645: 虽然这是个老帖子了，但是也许还会有新人来看，所以还是想简单分享一下。SARSA更新用的是5元组(s, a, r, s', a')，其中s'是当前状态s执行动作a后到达的新状态。a'是基于当前策略实际会选择的下一动作（例如epsilon-greedy下的某个动作）。假设我们把这些元组存入replay buffer。当我们的策略发生变化后，如果我们从replay buffer中抽取一条旧的数据(s, a, r, s', a')来做更新，用y=r+gama*Q_target(s', a')来估计当前策略下的期望，那么这个a'实际上是过去某个旧策略下采取的动作，可能会与当前策略会采取的动作不同。在这种情况下，就会引入策略不一致的偏差，使得这个TD target与当前策略的真实期望之间产生误差。由于SARSA是on-policy算法，它要求更新时用的动作a'来自当前策略，这解释了为什么SARSA通常不适合与replay buffer一起使用。

大家在看

最新文章

2025

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。