Machine Learning for Autonomous Driving Workshop at the 35th Conference on Neural Information Processing
Systems (NeurIPS 2021)
IEEE RAL 2023
paper
Intro
提出Planning-based的基于模型的离线强化学习算法用于自动驾驶。
Method
dynamic model
采用基于条件变分自编密码器CVAE对随机模型进行建模,并最小化ELBO优化模型参数
L
(
s
t
,
s
t
+
1
,
a
t
,
r
t
)
=
∣
∣
s
t
+
1
−
f
m
,
s
,
θ
(
s
t
,
a
t
,
z
t
)
∣
∣
2
2
+
∣
∣
r
t
−
f
m
,
r
,
θ
(
s
t
,
a
t
,
z
t
)
∣
∣
2
2
+
ζ
D
K
L
(
q
ϕ
(
z
t
∣
s
t
,
s
t
+
1
)
∣
∣
p
(
z
t
)
)
.
(
2
)
\begin{aligned} \mathcal{L}(\mathbf{s}_t,\mathbf{s}_{t+1},\mathbf{a}_t,r_t)& =||\mathbf{s}_{t+1}-f_{\mathrm{m,s,}\boldsymbol{\theta}}(\mathbf{s}_{t},\mathbf{a}_{t},\mathbf{z}_{t})||_{2}^{2} \\ &+||r_t-f_{\mathrm{m,r,\boldsymbol{\theta}}}(\mathbf{s}_t,\mathbf{a}_t,\mathbf{z}_t)||_2^2 \\ &+\zeta D_{\mathrm{KL}}(q_{\boldsymbol{\phi}}(\mathbf{z}_{t}\mid\mathbf{s}_{t},\mathbf{s}_{t+1})||p(\mathbf{z}_{t})).\quad(2) \end{aligned}
L(st,st+1,at,rt)=∣∣st+1−fm,s,θ(st,at,zt)∣∣22+∣∣rt−fm,r,θ(st,at,zt)∣∣22+ζDKL(qϕ(zt∣st,st+1)∣∣p(zt)).(2)
Behavior Cloned Policy and Truncated Value Function
对于策略采用监督学习的方式进行优化,但是策略的输入包含历史
n
c
n_c
nc步的动作作为输入
L
(
s
t
,
a
t
−
n
c
:
t
)
=
∣
∣
a
t
−
f
b
,
ψ
(
s
t
,
a
t
−
n
c
:
t
−
1
)
∣
∣
2
2
.
\mathcal{L}(\mathbf{s}_t,\mathbf{a}_{t-n_c:t})=||\mathbf{a}_t-f_{\mathrm{b},\boldsymbol{\psi}}(\mathbf{s}_t,\mathbf{a}_{t-n_c:t-1})||_2^2.
L(st,at−nc:t)=∣∣at−fb,ψ(st,at−nc:t−1)∣∣22.
对价值函数同样采用监督学习的方式,其输出表示为H-steps的累计回报的估计
L
(
R
H
,
t
,
s
t
,
a
t
−
n
c
:
t
−
1
)
=
∣
∣
R
H
,
t
−
f
R
,
ξ
(
s
t
,
a
t
−
n
c
:
t
−
1
)
∣
∣
2
2
.
\mathcal{L}(R_{H,t},\mathbf{s}_t,\mathbf{a}_{t-n_c:t-1})=||R_{H,t}-f_{\mathrm{R},\boldsymbol{\xi}}(\mathbf{s}_t,\mathbf{a}_{t-n_c:t-1})||_2^2.
L(RH,t,st,at−nc:t−1)=∣∣RH,t−fR,ξ(st,at−nc:t−1)∣∣22.
其中
R
H
,
t
=
∑
j
=
t
j
=
t
+
H
−
1
r
j
R_{H,t}=\sum_{j=t}^{j=t+H-1}r_{j}
RH,t=∑j=tj=t+H−1rj
要指出的是,上述动力模型、策略以及价值均为ensemble的形式。
Planning
采用MPC的规划方法,在H-steps的规划中,每一步所执行的动作包含策略
f
b
f_b
fb、高斯噪声以及历史规划得到的最优动作
T
t
∗
\mathbf{T}_t^*
Tt∗,
A
n
,
t
=
(
1
−
β
)
a
t
+
β
T
prev
,
i
=
min
(
t
,
H
−
1
)
∗
\mathbf{A}_{n,t}=(1-\beta)\mathbf{a}_{t}+\beta\mathbf{T}_{\text{prev},i=\min(t,H-1)}^{*}
An,t=(1−β)at+βTprev,i=min(t,H−1)∗
其中
a
t
=
f
b
l
(
s
t
,
a
t
−
n
c
:
t
−
1
)
+
ϵ
\mathbf{a}_{t}=f_{\mathrm{b}}^{l}(\mathbf{s}_{t},\mathbf{a}_{t-n_{c}:t-1})+\boldsymbol{\epsilon}
at=fbl(st,at−nc:t−1)+ϵ。要注意的是,算法会单独选择一个模型进行规划过程(line 8、9),并累计集成奖励模型均值(line 16),对terminal的状态则是加上价值函数均值(line 18)。而全新的每一个step的最优动作将通过基于累计奖励加权形式得出(该过程与ICLR 2021 的MBOP类似)
T
t
∗
=
∑
n
=
1
N
e
κ
R
n
A
n
,
t
+
1
∑
n
=
1
N
e
κ
R
n
,
∀
t
∈
{
0
,
…
,
H
−
1
}
.
\mathbf{T}_t^*=\frac{\sum_{n=1}^N\mathrm{e}^{\kappa\mathbf{R}_n}\mathbf{A}_{n,t+1}}{\sum_{n=1}^N\mathrm{e}^{\kappa\mathbf{R}_n}},\forall\:t\in\{0,\ldots,H-1\}\:.
Tt∗=∑n=1NeκRn∑n=1NeκRnAn,t+1,∀t∈{0,…,H−1}.
此外,算法还提供两种不同的Trajectory Optimizer方法用于求解最优动作
- UMBRELLA-P: Pessimistic Trajectory Optimizer,选取集成模型中累计R最小值,其对应的模型index k ∗ = arg min k ∈ { 1 … K } R k , s u m k^{*}=\arg\min_{k\in\{1\ldots K\}}\mathbf{R}_{k,\mathrm{sum}} k∗=argmink∈{1…K}Rk,sum,用该模型产生的序列轨迹求解 T t ∗ \mathbf{T}_t^* Tt∗
- UMBRELLA-G: Greedy Trajectory Optimizer,不采用加权方式求解,而是直接选取n条轨迹中累计奖励最大的轨迹作为结果,即 T ∗ = A n ∗ , H w i t h n ∗ = arg max n R ^ n . \mathbf{T}^*=\mathbf{A}_{n^*,H}\mathrm{~with~}n^*=\arg\max_n\mathbf{\hat{R}}_n. T∗=An∗,H with n∗=argmaxnR^n.