Paper-5 总结 GAN-IRL-Energy Model之间的联系 2016年

最新推荐文章于 2023-07-09 00:15:45 发布

Nemo555

最新推荐文章于 2023-07-09 00:15:45 发布

阅读量808

点赞数

分类专栏： Paper Daily 文章标签：深度强化学习示教学习人工智能

本文链接：https://blog.csdn.net/weixin_40056577/article/details/106579111

版权

Paper Daily 专栏收录该内容

11 篇文章 6 订阅

订阅专栏

A Connection Between Generative Adversarial Networks, Inverse Reinforcement Learning, and Energy-Based Models

论述点
一、基础知识回顾
二、GAN与IRL的等价
三、GANs训练Energy-Based Model
四、总结

论述点

相当的IRL方法从数学上与GAN等价
Maximum Entropy IRL是Energy-based model的一种特例
更Generalize来说，将GAN当作一种训练算法对Energy-based Model进行训练，从而解决IRL中recover reward fuunction/cost function的问题

一、基础知识回顾

1.1 GAN

GAN的优化目标如下：
$\min _{\theta} \max _{\phi} V\left(G_{\theta}, D_{\phi}\right)=\mathbb{E}_{\mathbf{x} \sim \mathbf{p}_{\text {data }}}\left[\log D_{\phi}(\mathbf{x})\right]+\mathbb{E}_{\mathbf{z} \sim p(\mathbf{z})}\left[\log \left(1-D_{\phi}\left(G_{\theta}(\mathbf{z})\right)\right)\right]$

思想：固定 $G_\theta$ 改变参数 $\phi$ 使来自真实分布的样本的似然变大，使来自生成器噪声z的样本似然变小。然后固定 $D_\phi$ ，改变参数 $\theta$ 使生成器噪声z的样本通过判别器后的样本似然变大，即往尽可能混淆当前的判别器。

GAN的优化目标多变但思想不变，这篇Paper采用的形式如下：

判别器D的Loss： $L(D)=E_{x\sim p_{data}}[-logD(x)]+E_{x\sim G}[-log(1-D(x))]$
生成器G的Loss： $L(G)=E_{x\sim G}[-logD(x)]+E_{x\sim G}[log(1-D(x))]$

G的Loss有点变化，但思想是一样的，大家可自行检验一下。

1.2 Energy-Based Model(EBM)

$p_\theta(x) = \frac{1}{Z}exp(-E_\theta(x))$ 难点出现在partition function Z的评估中，而 $E_\theta(x)$ 就是energy function，常常以最大似然的方法来确定参数 $\theta$ 。

$Z=\int exp(-E_\theta(x))dx$

1.3 IRL——GCL方法

IRL
IRL的目标是从专家数据即demonstrated behaviors中recover一个cost function/reward function，即从专家数据中抽取一个intent，行为背后的意图。

Maximum Entropy IRL建模专家行为数据的方式就是采用了Energy-Based Model的方式：
$p_\theta(\tau)=\frac{1}{Z}exp(-c_\theta(\tau))=\frac{1}{Z}exp(r_\theta(\tau))$

使用了Energy Function采用了Cost Function来对轨迹 $\tau$ 建模，而轨迹的分布采用了Boltzmann Distribution的形式即 $p_\theta(\tau)$ 进行表达。

（论文采用了cost的方式表述，但实际上是reward等同，不再强调）

GCL（Paper-4 精读 GCL）
建模了专家数据后，自然就是希望学习一个关于专家的轨迹分布 $p_\theta(\tau)$ ，即求解参数 $\theta$
$\begin{aligned} L_{cost}(\theta)&=E_{\tau\sim p}[-logp_\theta(\tau)]\\ &=E_{\tau\sim p}[c_\theta(\tau)]+logZ\\ &=E_{\tau\sim p}[c_\theta(\tau)] + log(E_{\tau \sim q}[\frac{exp(-c_\theta(\tau))}{q(\tau)}]) \end{aligned}$ 看了GCL的Paper精读就知道，在估计Z的时候采用了Policy的构建方式来对轨迹trajectory进行逼近，并用了Importance Sampling的形式来使用 $q(\tau)$ 的轨迹样本数据进行基于Samples的估计。

因为Importance Sampling的分布 $q(\tau)$ 一开始没有交集的话，这个weight就会有coverage的问题，加入一些专家数据有：

$u=\frac{1}{2}p+\frac{1}{2}q$

$L_{cost}(\theta)=E_{\tau\sim p}[c_\theta(\tau)] + log(E_{\tau \sim u}[\frac{exp(-c_\theta(\tau))}{\frac{1}{2}p_\theta(\tau)+\frac{1}{2}q(\tau)}])$

实现了对Cost的更新后，还需要将Policy构建的轨迹分布 $q(\tau)$ 用KL散度来拉近与专家数据分布 $p_\theta(\tau)$ 的距离。即
$\min_qL(q)=\min_qE_{\tau\sim q}[c_\theta(\tau)]+E_{\tau\sim q}[logq(\tau)]$

选择policy构建的轨迹分布 $q(\tau)$ 在当前 $c_\theta(\tau)$ 下的cost最低，然后最大化 $q(\tau)$ 的Entropy即 $H[q(\tau)]=E_{\tau\sim q}[-logq(\tau)]$ ，从而使得 $q(\tau)$ 的分布更“broad”（最大化分布的entropy就是使其分布更宽广）.

二、GAN与IRL的等价

思路：在GCL那篇Paper中，我们完全从IRL的角度出发推导然后从中发现了GAN的思想。现在从GAN的最优判别器出发，去推导GCL的

IRL的目标是学习到一个Cost Function，然后在2016 ICML中的一篇GCL，利用了Policy Optimization来指导Cost Function的Learning，与基础知识回顾中那样。在GAN的角度，将Cost Learning的部分看成是判别器D，将Policy Optimization Guidance的部分看成是生成器G，即
GAN中最优的判别器形式为:
$D^*(\tau)=\frac{p(\tau)}{p(\tau)+q(\tau)}$ 其中 $p(\tau)$ 为数据真实分布， $q(\tau)$ 为生成器G的模型分布。

然后将MaxEntIRL对专家数据建模的轨迹分布 $p_\theta(\tau)=\frac{1}{Z}exp(-c_\theta(\tau))$ 代进去有:
$D_\theta(\tau)=\frac{\frac{1}{Z}exp(-c_\theta(\tau))}{\frac{1}{Z}exp(-c_\theta(\tau))+q(\tau)}$

$Z=\int exp(-c_\theta(\tau))d\tau$

现在从GAN判别器D的Loss开始推导： $L(D)=E_{x\sim p}[-logD(x)]+E_{x\sim q}[-log(1-D(x))]$

将最优的判别起代入Loss中即 $D_\theta(\tau)=\frac{\frac{1}{Z}exp(-c_\theta(\tau))}{\frac{1}{Z}exp(-c_\theta(\tau))+q(\tau)}$

有： $L(D_\theta)=E_{\tau\sim p}[c_\theta(\tau)] + log(E_{\tau \sim u}[\frac{exp(-c_\theta(\tau))}{\frac{1}{2Z}exp(-c_\theta(\tau))+\frac{1}{2}q(\tau)}])$ 其中 $u=\frac{1}{2}p_\theta(\tau)+\frac{1}{2}q(\tau)$ ,这正是GCL中关于Cost Function的优化目标。

将最优判别器代入到生成器的Loss中有:
$\begin{aligned} L(G)&=E_{x\sim G}[-logD(x)]+E_{x\sim G}[log(1-D(x))]\\ &=E_{\tau\sim q}\Big[logq(\tau)+logZ+c_\theta(\tau)\Big]\\ &=logZ+E_{\tau\sim q}[c_\theta(\tau)]+E_{\tau \sim q}[logq(\tau)]\\ &=logZ+L(q)\\ L(q)&=E_{\tau\sim q}[c_\theta(\tau)]+E_{\tau\sim q}[logq(\tau)] \end{aligned}$

因为 $Z=\int exp(-c_\theta(x))dx$ 与 $q$ 无关，因此生成器的目标等价于GCL中policy Optimizaiton的目标。

总结一下IRL中GCL的做法与GAN的对比：

GCL迭代的是两个对象，一个是Cost Function即 $c_\theta(\tau)$ ，轨迹用的是PGM的方式进行构建；另一个是Policy对象即 $q(\tau)$ ，轨迹用的是Policy的方式进行构建。
GCL中学习参数 $\theta$ 的目标为： $L_{cost}(\theta)=E_{\tau\sim p}[c_\theta(\tau)] + log(E_{\tau \sim u}[\frac{exp(-c_\theta(\tau))}{\frac{1}{2}p_\theta(\tau)+\frac{1}{2}q(\tau)}])$ 用最大似然估计MLE来近似专家数据，用Policy来处理 $l o g Z$
GCL中学习Policy分布的目标为：
$\min_qL(q)=\min_qE_{\tau\sim q}[c_\theta(\tau)]+E_{\tau\sim q}[logq(\tau)]$ 就是一个MaxEntIRL目标，使q在当前reward下取得损失最小，同时使q分布尽可能宽广。

最优判别器的形式 $D^*(\tau)=\frac{p(\tau)}{p(\tau)+q(\tau)}$ ，利用Energy-based Model以及Boltzmann Distribution来对 $p(\tau)$ 进行建模，然后代入到GAN的判别器Loss即 $L(D)=E_{x\sim p_{data}}[-logD(x)]+E_{x\sim G}[-log(1-D(x))]$ 得到与GCL的Cost Learning一样的目标
最优判别器的形式代入到GAN的生成器Loss即 $L(G)=E_{x\sim G}[-logD(x)]+E_{x\sim G}[log(1-D(x))]$ 得到与GCL的Policy Objective即MaxEntIRL Objective一样的目标。

至此，GAN与IRL从数学角度上是等价的，但两者目标的推导角度从各自领域是不一样的，但最终结果是相通的。

三、GANs训练Energy-Based Model

在GAN与IRL中的GCL的联系中，我们都默认采用了cost的方式来建模Energy-Based Model:
$p(\tau)=\frac{1}{Z}exp(-E(\tau))=\frac{1}{Z}exp(-c(\tau))$ $Z=\int exp(-E(\tau))d\tau$

然后利用了Importance Sampling的角度来近似这个partition function即
$\begin{aligned} Z&=\int exp(-E(\tau))d\tau\\ &=\int u(\tau)\frac{exp(-E(\tau))}{u(\tau)}d\tau\\ &=E_{\tau\sim u}\Big[\frac{exp(-E(\tau))}{u(\tau)}\Big] \end{aligned}$

其中 $u(\tau)=\frac{1}{2}(p(\tau)+q(\tau))$ ，然后通过MLE得到关于Cost或判别器D的目标：
$\begin{aligned} L_D(\theta)&=E_{\tau\sim p}[-logp_\theta(\tau)]\\ &=E_{\tau\sim p}[-E_\theta(\tau)]-log\Big(E_{x\sim u}\Big(\frac{exp(-E_\theta(\tau))}{u(\tau)}\Big)\Big) \end{aligned}$

然后生成器的目标为:
$L_G(q)=E_{x\sim q}[E_\theta(\tau)]+E_{x\sim q}[logq(\tau)]$

因此从Energy-base model去看问题，选择的角度就比较广了，不仅仅是是 $E_\theta(\tau)=c_\theta(\tau)$ ，从而可以多角度设计判别器来尝试这个问题。

四、总结

比较High-Level的总结一下GAN、IRL的GCL、Energy-based Model之间的联系以及主要逻辑，不拘泥于公式细节。

首先有一堆专家数据。

IRL的角度。

利用一个带Optimality Variable的PGM图对专家的行为轨迹进行了建模，尝试拟合专家轨迹分布
涉及到partition function的近似估计时，利用了基于Samples的方法近似估计，即用另一个Policy构建的轨迹分布进行采样，而不用非常慢的MCMC
然后就得优化这个新构建的轨迹分布确保Important Sampling的Coverage，使其逼近专家轨迹的分布。

GAN的角度

判别器在选择一个cost function/reward function，使真实的专家行为数据cost最低/reward最大，然后远离生成器的generated behavior datas
生成器尝试生成一些能骗过判别器D的专家行为数据，

至于Energy-based Model则是表达专家行为轨迹分布实采用的有力武器。就是说，应该如何更好地将专家的行为轨迹(trajectory)即 $\tau = \{s_1,a_1,s_2,a_2,...,s_T\}$ 表达成一个轨迹分布 $p(\tau)=\frac{1}{Z}exp(-E(\tau))$