Offline:Uncertainty-Aware Model-Based Offline Reinforcement Learning for Automated Driving

Machine Learning for Autonomous Driving Workshop at the 35th Conference on Neural Information Processing
Systems (NeurIPS 2021)
IEEE RAL 2023
paper

Intro

提出Planning-based的基于模型的离线强化学习算法用于自动驾驶。

Method

在这里插入图片描述

dynamic model

采用基于条件变分自编密码器CVAE对随机模型进行建模,并最小化ELBO优化模型参数
L ( s t , s t + 1 , a t , r t ) = ∣ ∣ s t + 1 − f m , s , θ ( s t , a t , z t ) ∣ ∣ 2 2 + ∣ ∣ r t − f m , r , θ ( s t , a t , z t ) ∣ ∣ 2 2 + ζ D K L ( q ϕ ( z t ∣ s t , s t + 1 ) ∣ ∣ p ( z t ) ) . ( 2 ) \begin{aligned} \mathcal{L}(\mathbf{s}_t,\mathbf{s}_{t+1},\mathbf{a}_t,r_t)& =||\mathbf{s}_{t+1}-f_{\mathrm{m,s,}\boldsymbol{\theta}}(\mathbf{s}_{t},\mathbf{a}_{t},\mathbf{z}_{t})||_{2}^{2} \\ &+||r_t-f_{\mathrm{m,r,\boldsymbol{\theta}}}(\mathbf{s}_t,\mathbf{a}_t,\mathbf{z}_t)||_2^2 \\ &+\zeta D_{\mathrm{KL}}(q_{\boldsymbol{\phi}}(\mathbf{z}_{t}\mid\mathbf{s}_{t},\mathbf{s}_{t+1})||p(\mathbf{z}_{t})).\quad(2) \end{aligned} L(st,st+1,at,rt)=∣∣st+1fm,s,θ(st,at,zt)22+∣∣rtfm,r,θ(st,at,zt)22+ζDKL(qϕ(ztst,st+1)∣∣p(zt)).(2)

Behavior Cloned Policy and Truncated Value Function

对于策略采用监督学习的方式进行优化,但是策略的输入包含历史 n c n_c nc步的动作作为输入
L ( s t , a t − n c : t ) = ∣ ∣ a t − f b , ψ ( s t , a t − n c : t − 1 ) ∣ ∣ 2 2 . \mathcal{L}(\mathbf{s}_t,\mathbf{a}_{t-n_c:t})=||\mathbf{a}_t-f_{\mathrm{b},\boldsymbol{\psi}}(\mathbf{s}_t,\mathbf{a}_{t-n_c:t-1})||_2^2. L(st,atnc:t)=∣∣atfb,ψ(st,atnc:t1)22.

对价值函数同样采用监督学习的方式,其输出表示为H-steps的累计回报的估计
L ( R H , t , s t , a t − n c : t − 1 ) = ∣ ∣ R H , t − f R , ξ ( s t , a t − n c : t − 1 ) ∣ ∣ 2 2 . \mathcal{L}(R_{H,t},\mathbf{s}_t,\mathbf{a}_{t-n_c:t-1})=||R_{H,t}-f_{\mathrm{R},\boldsymbol{\xi}}(\mathbf{s}_t,\mathbf{a}_{t-n_c:t-1})||_2^2. L(RH,t,st,atnc:t1)=∣∣RH,tfR,ξ(st,atnc:t1)22.
其中 R H , t = ∑ j = t j = t + H − 1 r j R_{H,t}=\sum_{j=t}^{j=t+H-1}r_{j} RH,t=j=tj=t+H1rj

要指出的是,上述动力模型、策略以及价值均为ensemble的形式。

Planning

采用MPC的规划方法,在H-steps的规划中,每一步所执行的动作包含策略 f b f_b fb、高斯噪声以及历史规划得到的最优动作 T t ∗ \mathbf{T}_t^* Tt,
A n , t = ( 1 − β ) a t + β T prev , i = min ⁡ ( t , H − 1 ) ∗ \mathbf{A}_{n,t}=(1-\beta)\mathbf{a}_{t}+\beta\mathbf{T}_{\text{prev},i=\min(t,H-1)}^{*} An,t=(1β)at+βTprev,i=min(t,H1)
其中 a t = f b l ( s t , a t − n c : t − 1 ) + ϵ \mathbf{a}_{t}=f_{\mathrm{b}}^{l}(\mathbf{s}_{t},\mathbf{a}_{t-n_{c}:t-1})+\boldsymbol{\epsilon} at=fbl(st,atnc:t1)+ϵ。要注意的是,算法会单独选择一个模型进行规划过程(line 8、9),并累计集成奖励模型均值(line 16),对terminal的状态则是加上价值函数均值(line 18)。而全新的每一个step的最优动作将通过基于累计奖励加权形式得出(该过程与ICLR 2021 的MBOP类似)
T t ∗ = ∑ n = 1 N e κ R n A n , t + 1 ∑ n = 1 N e κ R n , ∀   t ∈ { 0 , … , H − 1 }   . \mathbf{T}_t^*=\frac{\sum_{n=1}^N\mathrm{e}^{\kappa\mathbf{R}_n}\mathbf{A}_{n,t+1}}{\sum_{n=1}^N\mathrm{e}^{\kappa\mathbf{R}_n}},\forall\:t\in\{0,\ldots,H-1\}\:. Tt=n=1NeκRnn=1NeκRnAn,t+1,t{0,,H1}.

此外,算法还提供两种不同的Trajectory Optimizer方法用于求解最优动作

  1. UMBRELLA-P: Pessimistic Trajectory Optimizer,选取集成模型中累计R最小值,其对应的模型index k ∗ = arg ⁡ min ⁡ k ∈ { 1 … K } R k , s u m k^{*}=\arg\min_{k\in\{1\ldots K\}}\mathbf{R}_{k,\mathrm{sum}} k=argmink{1K}Rk,sum,用该模型产生的序列轨迹求解 T t ∗ \mathbf{T}_t^* Tt
  2. UMBRELLA-G: Greedy Trajectory Optimizer,不采用加权方式求解,而是直接选取n条轨迹中累计奖励最大的轨迹作为结果,即 T ∗ = A n ∗ , H   w i t h   n ∗ = arg ⁡ max ⁡ n R ^ n . \mathbf{T}^*=\mathbf{A}_{n^*,H}\mathrm{~with~}n^*=\arg\max_n\mathbf{\hat{R}}_n. T=An,H with n=argmaxnR^n.

伪代码

在这里插入图片描述

results

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值