wayformer

Wayformer: 一个实现运动预测简单有效的注意网络
整体来讲wayformer是一个非常工程的文章,他提出了很多种可以尝试的方法。主要依据的思想是transformer。
在这里插入图片描述
模型的输入有Agents history, Agents Interactions, Roadgraph, Traffic Light State.
Wayformer的结构和Transfomer很像,分为Scene Encoder和decoder,都使用了attention的结构。整体坐标系的话是待预测障碍物的坐标系,projection layers就是说将所有的输入都投影到一个地方,Positional Embeddings是说由于self attention具有permutation equivariant,不能处理sequence,所以需要加一个positional embeddings,但是这个地方他又直接给了一个初始的positional embeddings,让模型去训练,所以这里有一点像latent query,让模型具有了permutation invariant(我猜的)。
在这里插入图片描述
在scene encoder中,尝试了三种方法,late fusion, eary fusion, hierarchical fusion。三种fusion方式中,late fusion是最规整的,early fussion是最灵活的,hierarchical fussion介于两者之间。

在这里插入图片描述
对于attention的形式,也提出了几种改进方式,从大的方向上来分有两种,multi-axis attention和factorized attention。
multi-axis attention是一种时间和空间同时attention的方法,所以时间复杂度比较高,O(S^2 * T^2)。
为了缓解multi-axis attention的计算复杂度,提出了multi-axis latent query encoder。通过设置latent query Q的大小,可以控制运算量,reduction value R = Lout / Lin。
factorized attention是将时间和空间分开计算,因此时间复杂度是O(S^2) + O(T^2)。那怎么分开呢,时间和空间的attention顺序是怎么样呢,又提出了两种,Sequential Attention和Interleaved Attention,Sequential Attention是N / 2的temporal encoder block后面接这N / 2的spatial encoder block。Interleaved Attention是temporal 和spatial交替出现。
在这里插入图片描述
对于Trajectory Decoder,整体的网络结构类似于transformer中的decoder,先给入一个k learned initial queries作为输入,然后输出为GMM形式的轨迹(均值和协方差),这个形式就和multipathpp差不多,loss也是一样的。最后再将轨迹使用k-means进行聚类(从64条聚类到6条)
在这里插入图片描述
这个也是有缺点的:地图需要根据每个障碍物都来一份,计算量较大;输入的信息是经过人筛选的,可能有很多细节注意不到,最好直接用感知的原始信息;每个障碍物都是独立计算的,无法获得交互信息。
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值