论文阅读 | UniFormer

UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View


2022年7月,浙江大学、大疆公司和上海AI实验室发表了《UniFormer: Unified Multi-view Fusion Transformer for Spatial-Temporal Representation in Bird’s-Eye-View》,

1College of Computer Science, Zhejiang University; 
2DJI
3Shanghai Institute for Advanced Study of Zhejiang University; 
4Shanghai AI Lab

摘要

Bird’s eye view (BEV) 表达自动驾驶中的一种新的感知构想,基于空间融合。BEV表达中引入时序融合,也取得了巨大成功。

本篇文章,介绍了一种新的方法统一时空融合,并融合到一个统一的数学表达。

因为有了时空融合,所以可以支持远距离融合,这是传统BEV方法做不到的。此外,BEV融合有时间自适应性且时间融合的权重也是可以学习的。而传统时间融合使用固定和相同的权重。此外,统一融合能够避免传统BEV融合中的信息丢失,且充分利用特征数据。

介绍

BEV表示是将多个相机特征映射到自车坐标系空间内。

Illustration of the map segmentation task in BEV

这种空间融合构建了一个集成的BEV空间,来自不同相机的重复结果在BEV空间被唯一的表示出来,极大地降低了多相机特征融合的难度。
BEV空间融合自然地共享相同的3D空间,使得多模态融合更简单。基于空间融合的集成BEV表达提供了时间融合的基础。

好处:

1.可以表达出被暂时遮挡的物体;
2.基类远距离观测数据,可用于生成地图
3.稳定静止车辆的感知结果

Question: 说了半天这个时空融合到底什么意思?

所谓时空融合,就是对数据在空间上进行组合,在多个时间片段上予以融合。

  • 空间:不同位置多相机(或其他传感器)融合;
  • 时间:多个历史帧数据融合

Different methods in BEV temporal fusion

上图从左到右,无时域融合、基于warp的时域融合和提出的统一多视图融合。对于无时域融合的方法,仅在当前时间步长用周围图像预测BEV空间;基于warp的时域融合将上一时间步的BEV空间warp,是一种串行融合方法;统一的多视图融合,是一种并行方法,可以支持远距离融合。Virtual views

由于时间特征来自于过去,当前时间不存在,为了时间融合,作者提出了 虚拟视角(virtual views)的概念,假装它们存在于当前时间。

virtual views 就是将相机过去的视野当成现在的视野,根据相机的运动为这些视野分配当前BEV空间的虚拟位置。

通过这种方法,这个时空表达能够被简单当成一个统一的多视角融合,包含当前空间融合和过去的虚拟视角。

时间和空间同步融合了能够通过时空一次性获取到有用的特征。

由于直接获取到所有时间特征,因此可以实现可适应的时间融合。

并行的特征保证了在融合过程中没有丢失信息。

多视角统一融合可以支持不同传感器的融合,还能架起更高层次和异构融合的桥梁,比如车辆侧和道路侧的感知,比如车上的摄像头和交通灯上监控摄像头的信息融合。

方法

建立统一的多角度融合包括2部分:

  1. 多视图融合的推导过程;
  2. 统一多视图融合的网络架构

多视图融合的推导过程

Derivation of virtual views

传统的BEV时间融合是基于扭曲时间的融合,即基于不同时间步长的自车运动扭曲过去的BEV特征信息。因为所有特征已经在扭曲前的某一时刻的定义的BEV自车空间中组织好了,一般会按照ROI的范围进行组织,所以范围变小了,会丢失一些信息,比如原来传感器能够捕获到100米远的信息,但是经过ROI可能就设定为55米。

因此使用传感器原始范围进行融合,效果会更好。

为了得到更好的时间融合,提出了 virtual view的概念。

虚拟视角(virtual view):不在当前时间步长内显示的传感器视角。将过去的视角通过平移和旋转到当前自车BEV空间,好像它们就在当前时间步长内一样。

说白了,就是将过去时刻的数据转换到当前时刻下
P P o i n t C l o u d = K i ( R i v P b e v + t i v ) P_{PointCloud} = K_i \left( R_i^vP_{bev} + t_i^v \right) PPointCloud=Ki(RivPbev+tiv)

统一多视图融合的网络架构

Network architecture

网络架构主要由3部分组成:

  1. 主干网络
  2. 统一多视角融合Transformer
  3. 分割头
主干网络

主干网络使用3种广泛使用的主干网络:ResNet50、Swin-Tiny、VoVNet 提取多尺度特征。

融合Transformer

使用 Transformer encoder 融合多角度特征。

主要包含4部分:

  • BEV 查询
  • 自注意模块
  • 交叉注意模块
  • 自回归机制

用BEV query Q来迭代BEV空间不同位置的特征、时间步、多尺度级和采样高度。可以以统一的方式直接检索来自任何地点和时间的信息,而不会造成任何损失。

受BEVFormer 的启发,自回归机制是将Transformer的输出与BEV查询连接起来作为新的输入,并重新运行Transformer以获得最终的特征。

Overall architecture of BEVFormer

BEVFormer在自关注模块之前将扭曲的先前BEV特征与BEV查询连接起来以实现时间融合。这是性能提高的根本原因。

已有方法可以归类叫做warp-based temporal fusion,就是根据不同时刻BEV空间的位置关系,把过去时刻的BEV features 对齐(align,具体就是根据ego运动信息进行旋转、平移)到当前时刻,并与当前时刻的BEV features实施add、concat或transformer attention操作来融合形成temporal fusion BEV features。

BEV特征和查询的连接是隐式地加深和增加Transformer层的数量。

分割头

分割头是ERFNet

实验结果

Reference


>>>>> 欢迎关注公众号【三戒纪元】 <<<<<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值