LfO: Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification

收到求救信号

已于 2024-05-16 17:28:03 修改

阅读量298

点赞数 4

分类专栏：强化学习 Model-free LfO 文章标签：机器学习算法人工智能

于 2024-05-16 17:21:22 首次发布

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/138944134

版权

强化学习同时被 3 个专栏收录

84 篇文章 1 订阅

订阅专栏

Model-free

15 篇文章 0 订阅

订阅专栏

LfO

1 篇文章 0 订阅

订阅专栏

NIPS 2021 Oral
paper
code

问题研究在没有奖励的情况下，如何利用成功的演示数据帮助智能体进行强化学习。文章给出的方法是利用PU分类方法学习二元分类器，该分类器可以看作是价值函数用于策略学习

Intro

在这里插入图片描述

传统强化学习需要人工设置奖励函数，但是在许多情况下设定较为困难，反而在一些已被解决的任务中，比较容易获取到成功的事例。受这一观察的启发，我们从第一性原理推导出控制算法，在给定成功结果状态的示例下，该算法旨在访问具有高概率导致成功结果的状态。先前的工作分两个阶段处理类似的问题设置，首先学习一个辅助奖励函数，然后使用另一个强化学习算法优化这个奖励函数。相比之下，本文推导出一种基于递归分类的方法RCE，该方法避开辅助奖励函数，而是直接从转换和成功结果中学习价值函数。

Method

该问题下智能体无法获取环境的奖励函数，但额外有一个由成功示例构成的数据集 $\mathcal{S}^*$ 。算法的核心是构建一个“价值函数”，这个函数是通过Positive-Unlabeled 分类得到。PU训练一个分类器将数据分为从条件分布 $p^\pi(s_t,a_t|e_{+}=1)$ 中采样的“正”状态-动作对,以及从边际分布采样的负样本 $p(s_t,a_t)$ 。其中二元随机变量 $e_t \in \{0,1\}$ 表示任务是否在时间 t 解决。该分类器训练后，对能够帮助任务完成的样本概率表示为
$C_\theta^\pi(\mathbf{s_t},\mathbf{a_t})=\frac{p^\pi(\mathbf{s_t},\mathbf{a_t}\mid\mathbf{e_{t+}}=1)p(\mathbf{e_{t+}}=1)}{p^\pi(\mathbf{s_t},\mathbf{a_t}\mid\mathbf{e_{t+}}=1)p(\mathbf{e_{t+}}=1)+p(\mathbf{s_t},\mathbf{a_t})} （4）$

该分类器的预测概率告诉我们样本未来解决任务的概率：
$\frac{C_\theta^\pi(\mathbf{s_t},\mathbf{a_t})}{1-C_\theta^\pi(\mathbf{s_t},\mathbf{a_t})}=p^\pi(\mathbf{e_{t+}}=1\mid\mathbf{s_t},\mathbf{a_t}).$

该分类器由神经网络构成，通过最大似然优化参数
$\begin{aligned}\mathcal{L}^{\pi}(\theta)&\triangleq p(\mathbf{e_{t+}}=1)\mathbb{E}_{p(\mathbf{s_{t}},\mathbf{a_{t}}|\mathbf{e_{t+}}=1)}[\log C_{\theta}^{\pi}(\mathbf{s_{t}},\mathbf{a_{t}})]\\&+\mathbb{E}_{p(\mathbf{s_{t}},\mathbf{a_{t}})}[\log(1-C_{\theta}^{\pi}(\mathbf{s_{t}},\mathbf{a_{t}}))].\quad(6)\end{aligned}$
第一个期望值的计算无法通过采样估计，因此需要变形。
第一步由贝叶斯
$p(\mathbf{s_{t}},\mathbf{a_{t}}\mid\mathbf{e_{t+}}=1)p(\mathbf{e_{t+}}=1)=p^{\pi}(\mathbf{e_{t+}}=1\mid\mathbf{s_{t}},\mathbf{a_{t}})p(\mathbf{s_{t}},\mathbf{a_{t}}).$
第二步
$p^\pi(\mathbf{e_{t+}}\mid\mathbf{s_t},\mathbf{a_t})\triangleq\mathbb{E}_{p^\pi(\mathbf{s_{t+}}\mid\mathbf{s_t},\mathbf{a_t})}[p(\mathbf{e_{t+}}\mid\mathbf{s_{t+}})],$
where the (discounted) distribution over future states is
$p^\pi(\mathbf{s_{t+}}\mid\mathbf{s_t},\mathbf{a_t})\triangleq(1-\gamma)\sum_{\Delta=0}^\infty p^\pi(s_{t+\Delta}=\mathbf{s_{t+}}\mid\mathbf{s_t},\mathbf{a_t}).$
因此
$\begin{aligned}p^{\pi}(\mathbf{e_{t+}}&=1\mid\mathbf{s_{t}},\mathbf{a_{t}})=(1-\gamma)p(\mathbf{e_{t}}=1\mid\mathbf{s_{t}})&\text{(7)}\\&+\gamma\mathbb{E}_{p(\mathbf{s_{t+1}|s_{t},a_{t})},}\left[p^{\pi}(\mathbf{e_{t+}}=1\mid\mathbf{s_{t+1}},\mathbf{a_{t+1}})\right].\end{aligned}$

第三步，带入损失函数计算期望。假设 $p_{U}(\mathbf{e_{t+}}=1)=1$
$\begin{aligned}\mathcal{L}^{\pi}(\theta)=&(1-\gamma)\mathbb{E}_{p_U(\mathbf{s_t}|\mathbf{e_t}=1),p(a_t|s_t)}[\underbrace{\log C_\theta^\pi(\mathbf{s_t},\mathbf{a_t})}_{(a)}]&\text{(8)}\\&+\mathbb{E}_{p(\mathbf{s_t},\mathbf{a_t},\mathbf{s_{t+1}})}[\underbrace{\gamma w\log C_\theta^\pi(\mathbf{s_t},\mathbf{a_t})}_{(b)}+\underbrace{\log(1-C_\theta^\pi(\mathbf{s_t},\mathbf{a_t}))}_{(c)}],\\\text{where}\\&w=\mathbb{E}_{p(\mathbf{a_{t+1}}|\mathbf{s_{t+1}})}\left[\frac{C_\theta^\pi(\mathbf{s_{t+1}},\mathbf{a_{t+1}})}{1-C_\theta^\pi(\mathbf{s_{t+1}},\mathbf{a_{t+1}})}\right]&\text{(9)}\end{aligned}$
其中第一项的期望可以通过采样成功示例的方式进行估计 $\mathbf{s^*}\sim p(\mathbf{s_t}\mid\mathbf{e_t}=1)$ 。方程直观的解释是第一项 (a) 训练分类器为成功示例本身预测 1，第三项（c）训练分类器对随机样本预测0 。重要是第二项 (b)，它类似于时间差异学习中的“bootstrapping”术语 (Sutton, 1988)。对于(b)，训练分类器以预测未来成功的概率取决于下一个时间步成功的概率( $\omega$ )，实践中发现(b)采用n-steps效果更好

那原始的最大似然问题转化为最小化两个交叉熵损失函数
$\min_{\theta}(1-\gamma)\mathbb{E}_{p(s_t|e_t=1),\mathbf{a_{t}}\sim\pi(\mathbf{a_{t}}|\mathbf{s_{t}})}\left[\mathcal{C}\mathcal{E}(C(\mathbf{s_{t}},\mathbf{a_{t}});y=1)\right]\quad(10)\\+(1+\gamma w)\mathbb{E}_{p(\mathbf{s_{t}},\mathbf{a_{t}},\mathbf{s_{t+1}})}\left[\mathcal{C}\mathcal{E}\left(C(\mathbf{s_{t}},\mathbf{a_{t}});y=\frac{\gamma w}{\gamma w+1}\right)\right].$
与现有的 actor-critic RL 算法非常相似，将标准 MSE 损失被替换为两个交叉熵损失，一个用于成功示例，一个用于重放缓冲区的经验。其中，对成功样本的动作是采用当前策略 $\pi_{\phi}$ ，相较于behavior policy(对buffer中的数据进行BC得到)有更好的性能表现

分类器优化后便可看作是价值函数用来优化策略
$\max_{\phi}\mathbb{E}_{\pi_{\phi}(\mathbf{a_{t}}|\mathbf{s_{t}})}[C_{\theta}^{\pi}(\mathbf{s_{t}},\mathbf{a_{t}})].$

伪代码

在这里插入图片描述

results

在这里插入图片描述

收到求救信号

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
LfO: Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification

问题研究在没有奖励的情况下，如何利用成功的演示数据帮助智能体进行强化学习。文章给出的方法是利用这些成功事例来构建奖励函数。
复制链接

扫一扫

专栏目录