随着高阶智能驾驶的发展,长尾障碍物感知成为智驾发力的关键点。驾驶场景中常见的行人、车、障碍物,能够通过 3D 物体检测等方式实现其位置、大小的估计。而现实世界城区的交通路况中,还存在海量长尾场景问题:如异形车辆、路上的石子、掉落的树叶等障碍物,以 3D 检测框、点云等传统表征方式已经难以实现精准、细致的检测和识别。我们希望能够找到一种更好的表征方式以描述长尾障碍物:
3D Occupancy 表征形式,以占用的方式重建了周围的 3D 场景,可用于通用物体检测,精准实现 3D 空间中物体的占位情况、语义识别、运动情况等,在表征上更具优势。
基于此,我们提出基于 Occupancy 的通用框架,通过预测 3D 空间的占据(occupany)及运动(motion)信息,从而提升智能驾驶感知任务性能。
商汤绝影 x 上海人工智能实验室:多模态通用 Occupancy 网络结构 OccNet
商汤绝影联合上海人工智能实验室提出的多模态通用 Occpancy 网络结构 OccNet。
该网络结构能够支持环视相机和 LiDAR 的单模态输入或联合输入:
1.)OccNet 从输入模态中提取特征,重建 3D 空间表征,从而输出 3D 空间的 occupancy 语义及运动信息。
2.)OccNet 还可直接用于多项智能驾驶任务,如 3D 目标检测、BEV 分割、运动规划等任务。
-
OccNet 效果呈现
栅格占据网络(Occupancy Network)将世界划分为 3D 网络单元,OccNet 通过体素(Voxel)体现单元的占据情况,并预测了每个占据单元包含的语义类别、速度、方向信息。
例如,以右下角 Colorbar 指示障碍物的行驶速度、行驶方向。其十字指针方向代表运动方向,上、下方向分别表示前向、对向行驶