文献阅读报告:MutiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction
文章目录
1. 概述
1.1 简述
由于现实世界的高度不确定性和多模态的性质,较之预测单一的平均轨迹(MAP),预测未来时刻的多模态概率分布更有实际意义。Mutipath将未来时刻的轨迹分布与一系列的state-sequence Anchor联系起来。
模型通过预测每个Anchor的离散分布,回归预测每个Anchor的路径点的offsets和不确定性,然后在每个时间步长里生成一个GMM。
1.2 模型解决问题的方向
使用一组Trajectory Anchor作为建模的基础。
- 通过编码anchor的分布,捕捉agent的意图不确定性。
- 在给定agent的意图后,未来时刻的每个时间步长服从正态分布,均值对应着anchor与上下文之间的offsets,而相应的协方差用于获得单一模态的不确定性。
1.3 模型主要结论和贡献
1.4 测试与实验
1.5 进一步的研究方向
2. 模型
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B4OIjXmd-1597321398972)(/Users/zhoubin08/Library/Application Support/typora-user-images/image-20200813114554536.png)]
1)模型输入自上而下的场景信息,采用Scene CNN提取输入特征的语义信息和时序信息,编码agent之间的交互,输出编码后的特征图scene feature。
2)对于场景中的每个Agent,裁剪一个以agent为中心的特征表示视图,预测K个anchor的轨迹概率。
3)对于每个Anchor,回归预测每个anchor在未来时刻的不确定性分布的偏移量。
2.1 Anchor
通过无监督学习的方法,在状态序列空间内的训练数据中找到anchor类别,提供粗粒度的语义表示。
将模型的一组离散的anchor trajectory,定义为模型的意图: A = { a k } k = 1 K A=\{a^k\}_{k=1}^K A={ak}k=1K,其中每一个anchor a k a^k ak 为序列轨迹 a k = [ a 1 k , . . . , a T k ] a^k=[a_1^k,...,a_T^k] ak=[a1k,...,aTk],使用softmax归一化: π ( a k ∣ x ) = e x p f k ( x ) ∑ i f i ( x ) \pi(a^k|x)=\frac{expf_k(x)}{\sum_if_i(x)} π(ak∣x)=∑ifi(x)expfk(x),其中 x x x为输入的一系列的语义和时序信息, f ( . ) f(.) f(.)为NN的输出。
2.2 高斯混合模型(GMM)
双变量高斯分布( μ x , μ y , σ x , σ y , ρ \mu_x,\mu_y,\sigma_x,\sigma_y,\rho μx,μy,σx,σy,ρ)
控制不确定性依赖于每个路径点状态的高斯分布:
ϕ
(
s
t
k
∣
a
k
,
x
)
=
N
(
s
t
k
∣
a
t
k
+
μ
t
k
(
x
)
,
∑
t
k
(
x
)
)
\phi(s_t^k|a^k,x)=\mathcal{N}(s_t^k|a_t^k+\mu_t^k(x),\sum_t^k(x))
ϕ(stk∣ak,x)=N(stk∣atk+μtk(x),t∑k(x))
其中,
μ
t
k
(
x
)
\mu_t^k(x)
μtk(x)为anchor状态之间的offsets,相当于以先前anchor作为先验的残差项。
2.3 模型的cost function
p ( s ∣ x ) = ∑ k = 1 K π ( a k ∣ x ) ∏ t = 1 T ϕ ( s t ∣ a k , x ) p(s|x)=\sum_{k=1}^K\pi(a^k|x)\prod_{t=1}^T\phi(s_t|a^k,x) p(s∣x)=k=1∑Kπ(ak∣x)t=1∏Tϕ(st∣ak,x)
2.4 模型的Loss function
数据采用
{
x
m
,
s
^
m
}
m
=
1
M
\{x^m,\hat s^m\}_{m=1}^M
{xm,s^m}m=1M的形式,学习
π
(
a
k
∣
x
)
、
μ
(
x
)
t
k
、
∑
(
x
)
t
k
\pi(a^k|x)、\mu(x)_t^k、\sum(x)_t^k
π(ak∣x)、μ(x)tk、∑(x)tk的分布参数,对cost function去负对数似然损失。
l
(
θ
)
=
−
∑
m
=
1
M
∑
k
=
1
K
1
(
k
=
k
^
m
)
[
l
o
g
π
(
a
k
∣
x
m
:
θ
)
+
∑
t
=
1
T
l
o
g
N
(
s
t
k
∣
a
t
k
+
μ
t
k
,
∑
t
k
;
x
m
;
θ
)
]
\mathcal l(\theta)=-\sum_{m=1}^M\sum_{k=1}^K1(k=\hat k^m)[log\pi(a^k|x^m:\theta)+\sum_{t=1}^Tlog\mathcal N(s_t^k|a_t^k+\mu_t^k,\sum_t^k;x^m;\theta)]
l(θ)=−m=1∑Mk=1∑K1(k=k^m)[logπ(ak∣xm:θ)+t=1∑TlogN(stk∣atk+μtk,t∑k;xm;θ)]
其中,
k
^
m
\hat k^m
k^m是与GT轨迹
s
^
m
\hat s^m
s^m最为接近的anchor的index。
3. 训练参数的使用
Input:静态和动态语义信息(400*400–>80m*80m, 5HZ(0.2s), channel: 15):
[ R G B , d i s _ r o a d _ e d g e , s p e e d _ l i m i t , l i g h t ( 5 ) , v e h i c l e _ p o s ( 5 ) ] [RGB, dis\_road\_edge, speed\_limit, light(5), vehicle\_pos(5)] [RGB,dis_road_edge,speed_limit,light(5),vehicle_pos(5)]
图像的空间位置,各个时间步长,车道连接,停止线,速度限制,红绿灯等。
model:Scene CNN 采用 R e s n e t Resnet Resnet进行特征图的提取,特征图中代理信息提取大小为11*11,输出双变量高斯分布 的参数和anchor的概率表示,1s---->5s。