[文献阅读报告]:MutiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction

文献阅读报告:MutiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction

1. 概述

1.1 简述

​ 由于现实世界的高度不确定性和多模态的性质,较之预测单一的平均轨迹(MAP),预测未来时刻的多模态概率分布更有实际意义。Mutipath将未来时刻的轨迹分布与一系列的state-sequence Anchor联系起来。

​ 模型通过预测每个Anchor的离散分布,回归预测每个Anchor的路径点的offsets和不确定性,然后在每个时间步长里生成一个GMM。

1.2 模型解决问题的方向

使用一组Trajectory Anchor作为建模的基础。

  1. 通过编码anchor的分布,捕捉agent的意图不确定性。
  2. 在给定agent的意图后,未来时刻的每个时间步长服从正态分布,均值对应着anchor与上下文之间的offsets,而相应的协方差用于获得单一模态的不确定性。
1.3 模型主要结论和贡献
1.4 测试与实验
1.5 进一步的研究方向

2. 模型

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B4OIjXmd-1597321398972)(/Users/zhoubin08/Library/Application Support/typora-user-images/image-20200813114554536.png)]

1)模型输入自上而下的场景信息,采用Scene CNN提取输入特征的语义信息和时序信息,编码agent之间的交互,输出编码后的特征图scene feature。

2)对于场景中的每个Agent,裁剪一个以agent为中心的特征表示视图,预测K个anchor的轨迹概率。

3)对于每个Anchor,回归预测每个anchor在未来时刻的不确定性分布的偏移量。

2.1 Anchor

通过无监督学习的方法,在状态序列空间内的训练数据中找到anchor类别,提供粗粒度的语义表示。

将模型的一组离散的anchor trajectory,定义为模型的意图: A = { a k } k = 1 K A=\{a^k\}_{k=1}^K A={ak}k=1K,其中每一个anchor a k a^k ak 为序列轨迹 a k = [ a 1 k , . . . , a T k ] a^k=[a_1^k,...,a_T^k] ak=[a1k,...,aTk],使用softmax归一化: π ( a k ∣ x ) = e x p f k ( x ) ∑ i f i ( x ) \pi(a^k|x)=\frac{expf_k(x)}{\sum_if_i(x)} π(akx)=ifi(x)expfk(x),其中 x x x为输入的一系列的语义和时序信息, f ( . ) f(.) f(.)为NN的输出。

2.2 高斯混合模型(GMM)

双变量高斯分布( μ x , μ y , σ x , σ y , ρ \mu_x,\mu_y,\sigma_x,\sigma_y,\rho μx,μy,σx,σy,ρ

控制不确定性依赖于每个路径点状态的高斯分布:
ϕ ( s t k ∣ a k , x ) = N ( s t k ∣ a t k + μ t k ( x ) , ∑ t k ( x ) ) \phi(s_t^k|a^k,x)=\mathcal{N}(s_t^k|a_t^k+\mu_t^k(x),\sum_t^k(x)) ϕ(stkak,x)=N(stkatk+μtk(x),tk(x))
其中, μ t k ( x ) \mu_t^k(x) μtk(x)为anchor状态之间的offsets,相当于以先前anchor作为先验的残差项。

2.3 模型的cost function

p ( s ∣ x ) = ∑ k = 1 K π ( a k ∣ x ) ∏ t = 1 T ϕ ( s t ∣ a k , x ) p(s|x)=\sum_{k=1}^K\pi(a^k|x)\prod_{t=1}^T\phi(s_t|a^k,x) p(sx)=k=1Kπ(akx)t=1Tϕ(stak,x)

2.4 模型的Loss function

数据采用 { x m , s ^ m } m = 1 M \{x^m,\hat s^m\}_{m=1}^M {xm,s^m}m=1M的形式,学习 π ( a k ∣ x ) 、 μ ( x ) t k 、 ∑ ( x ) t k \pi(a^k|x)、\mu(x)_t^k、\sum(x)_t^k π(akx)μ(x)tk(x)tk的分布参数,对cost function去负对数似然损失。
l ( θ ) = − ∑ m = 1 M ∑ k = 1 K 1 ( k = k ^ m ) [ l o g π ( a k ∣ x m : θ ) + ∑ t = 1 T l o g N ( s t k ∣ a t k + μ t k , ∑ t k ; x m ; θ ) ] \mathcal l(\theta)=-\sum_{m=1}^M\sum_{k=1}^K1(k=\hat k^m)[log\pi(a^k|x^m:\theta)+\sum_{t=1}^Tlog\mathcal N(s_t^k|a_t^k+\mu_t^k,\sum_t^k;x^m;\theta)] l(θ)=m=1Mk=1K1(k=k^m)[logπ(akxm:θ)+t=1TlogN(stkatk+μtk,tk;xm;θ)]
其中, k ^ m \hat k^m k^m是与GT轨迹 s ^ m \hat s^m s^m最为接近的anchor的index。

3. 训练参数的使用

Input:静态和动态语义信息(400*400–>80m*80m, 5HZ(0.2s), channel: 15):

[ R G B , d i s _ r o a d _ e d g e , s p e e d _ l i m i t , l i g h t ( 5 ) , v e h i c l e _ p o s ( 5 ) ] [RGB, dis\_road\_edge, speed\_limit, light(5), vehicle\_pos(5)] [RGB,dis_road_edge,speed_limit,light(5),vehicle_pos(5)]

​ 图像的空间位置,各个时间步长,车道连接,停止线,速度限制,红绿灯等。

model:Scene CNN 采用 R e s n e t Resnet Resnet进行特征图的提取,特征图中代理信息提取大小为11*11,输出双变量高斯分布 的参数和anchor的概率表示,1s---->5s。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"Robot Programming by Demonstration: A Probabilistic Approach"(RPD)源码是以概率为基础的机器人示教编程方法的源代码。该方法通过展示给机器人示范操作,机器人可以学习并模仿这些操作,实现自主编程。 在该源码中,概率被用于建立机器人对示范动作的理解和学习能力。它通过概率模型来捕捉示范者的意图和行为模式,并帮助机器人从示范数据中进行推断和学习。 源码中可能包含以下部分: 1. 数据采集:通过传感器或摄像头等设备收集示范者的动作数据。 2. 数据处理:对示范数据进行预处理、分析和特征提取,以便机器人能够更好地理解示范者的动作。 3. 概率建模:使用概率方法建立示范者的行为模型,这可以是基于统计模型、贝叶斯推理或其他概率模型。 4. 推理和学习:利用示范者的行为模型,机器人可以从示范数据中进行推断和学习,并生成类似的操作序列。 5. 运动控制:生成的操作序列可以通过机器人的运动控制系统来实施,使机器人按照示范者的方式执行任务。 对于使用者来说,可以使用该源码来实现以下功能: 1. 通过示教来训练机器人执行特定任务,而无需手动编程每个步骤。 2. 提供高度灵活性和个性化,因为用户可以直接展示所需操作,而不需要事先编写复杂的指令。 3. 可用于各种机器人应用领域,如服务机器人、工业自动化、医疗机器人等。 4. 可能具有一定的学习和改进能力,因为机器人可以通过概率推理和再学习来提高执行任务的效率和准确性。 总而言之,“Robot Programming by Demonstration: A Probabilistic Approach”源码提供了一种通过示范来编程机器人的方法,其中概率模型被用于建立示范者的行为模型,以便机器人可以从示范数据中进行学习并自主执行任务。该源码具有广泛的应用潜力,并且可以在不同领域中提供更加灵活和个性化的机器人编程解决方案。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值