Offline：Uncertainty-Aware Model-Based Offline Reinforcement Learning for Automated Driving

最新推荐文章于 2024-10-09 22:28:58 发布

收到求救信号

最新推荐文章于 2024-10-09 22:28:58 发布

阅读量992

点赞数

分类专栏：强化学习离线强化学习 Model-based 文章标签：算法人工智能机器学习

本文链接：https://blog.csdn.net/wdnmdwsmsa/article/details/139664988

版权

强化学习同时被 3 个专栏收录

89 篇文章 1 订阅

订阅专栏

离线强化学习

36 篇文章 1 订阅

订阅专栏

Model-based

12 篇文章 0 订阅

订阅专栏

Machine Learning for Autonomous Driving Workshop at the 35th Conference on Neural Information Processing
Systems (NeurIPS 2021)
IEEE RAL 2023
paper

Intro

提出Planning-based的基于模型的离线强化学习算法用于自动驾驶。

Method

在这里插入图片描述

dynamic model

采用基于条件变分自编密码器CVAE对随机模型进行建模，并最小化ELBO优化模型参数
$\begin{aligned} \mathcal{L}(\mathbf{s}_t,\mathbf{s}_{t+1},\mathbf{a}_t,r_t)& =||\mathbf{s}_{t+1}-f_{\mathrm{m,s,}\boldsymbol{\theta}}(\mathbf{s}_{t},\mathbf{a}_{t},\mathbf{z}_{t})||_{2}^{2} \\ &+||r_t-f_{\mathrm{m,r,\boldsymbol{\theta}}}(\mathbf{s}_t,\mathbf{a}_t,\mathbf{z}_t)||_2^2 \\ &+\zeta D_{\mathrm{KL}}(q_{\boldsymbol{\phi}}(\mathbf{z}_{t}\mid\mathbf{s}_{t},\mathbf{s}_{t+1})||p(\mathbf{z}_{t})).\quad(2) \end{aligned}$

Behavior Cloned Policy and Truncated Value Function

对于策略采用监督学习的方式进行优化，但是策略的输入包含历史 $n_c$ 步的动作作为输入
$\mathcal{L}(\mathbf{s}_t,\mathbf{a}_{t-n_c:t})=||\mathbf{a}_t-f_{\mathrm{b},\boldsymbol{\psi}}(\mathbf{s}_t,\mathbf{a}_{t-n_c:t-1})||_2^2.$

对价值函数同样采用监督学习的方式，其输出表示为H-steps的累计回报的估计
$\mathcal{L}(R_{H,t},\mathbf{s}_t,\mathbf{a}_{t-n_c:t-1})=||R_{H,t}-f_{\mathrm{R},\boldsymbol{\xi}}(\mathbf{s}_t,\mathbf{a}_{t-n_c:t-1})||_2^2.$
其中 $R_{H,t}=\sum_{j=t}^{j=t+H-1}r_{j}$

要指出的是，上述动力模型、策略以及价值均为ensemble的形式。

Planning

采用MPC的规划方法，在H-steps的规划中，每一步所执行的动作包含策略 $f_b$ 、高斯噪声以及历史规划得到的最优动作 $\mathbf{T}_t^*$ ,
$\mathbf{A}_{n,t}=(1-\beta)\mathbf{a}_{t}+\beta\mathbf{T}_{\text{prev},i=\min(t,H-1)}^{*}$
其中 $\mathbf{a}_{t}=f_{\mathrm{b}}^{l}(\mathbf{s}_{t},\mathbf{a}_{t-n_{c}:t-1})+\boldsymbol{\epsilon}$ 。要注意的是，算法会单独选择一个模型进行规划过程（line 8、9），并累计集成奖励模型均值（line 16），对terminal的状态则是加上价值函数均值（line 18）。而全新的每一个step的最优动作将通过基于累计奖励加权形式得出（该过程与ICLR 2021 的MBOP类似）
$\mathbf{T}_t^*=\frac{\sum_{n=1}^N\mathrm{e}^{\kappa\mathbf{R}_n}\mathbf{A}_{n,t+1}}{\sum_{n=1}^N\mathrm{e}^{\kappa\mathbf{R}_n}},\forall\:t\in\{0,\ldots,H-1\}\:.$

此外，算法还提供两种不同的Trajectory Optimizer方法用于求解最优动作

UMBRELLA-P: Pessimistic Trajectory Optimizer，选取集成模型中累计R最小值，其对应的模型index $k^{*}=\arg\min_{k\in\{1\ldots K\}}\mathbf{R}_{k,\mathrm{sum}}$ ，用该模型产生的序列轨迹求解 $\mathbf{T}_t^*$
UMBRELLA-G: Greedy Trajectory Optimizer，不采用加权方式求解，而是直接选取n条轨迹中累计奖励最大的轨迹作为结果，即 $\mathbf{T}^*=\mathbf{A}_{n^*,H}\mathrm{~with~}n^*=\arg\max_n\mathbf{\hat{R}}_n.$