CVPR'24自动驾驶国际挑战赛冠军赛队丨F-OCC方案分享-CSDN博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享浪潮信息AI团队在CVPR2024自动驾驶国际挑战赛“Occupancy & Flow”赛道上的冠军方案！如果您有相关工作需要分享，请在文末联系我们！

也欢迎添加小助理微信AIDriver004，加入我们的技术交流群

>>点击进入→自动驾驶之心『占用网络』技术交流群

编辑 | 自动驾驶之心

恭喜！这支赛队一举再度夺冠，再度证明了它们的实力！

不久前，计算机视觉领域的顶级学术会议CVPR在全球目光注视中顺利落幕，并正式公布了最佳论文等奖项。除诞生了绝佳的10 篇论文之外，另一场备受关注的自动驾驶国际挑战赛也在同期结束了属于它的“巅峰厮杀”。

浪潮信息AI团队一举摘得CVPR2024自动驾驶国际挑战赛“Occupancy & Flow”赛道桂冠，以48.9%的出色成绩从全球90余支顶尖AI团队中脱颖而出，再度展示了他们的非凡实力！这也是该AI团队在22、23多次登顶nuScenes 3D目标检测榜单后，面向Occupancy技术的又一次绝杀！

图1-浪潮信息AI团队斩获占据栅格和运动估计赛道第一名

CVPR 2024自动驾驶国际挑战赛是国际计算机视觉与模式识别会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition)的一个重要组成部分，专注于自动驾驶领域的技术创新和应用研究。今年的CVPR自动驾驶国际挑战赛赛道设置也非常之有意思了，完整地包含了感知、预测、规划三大方向七个赛道！

此次浪潮信息AI团队所登顶的占据栅格和运动估计(Occupancy & Flow)赛道，也正是本届CVPR自动驾驶国际挑战赛最受关注的赛道，聚焦感知任务，吸引了全球17个国家和地区，90余支顶尖AI团队参与挑战！比赛提供了基于 nuScenes 数据集的大规模占用栅格数据与评测标准, 要求参赛队伍利用相机图像信息对栅格化三维空间的占据情况(Occupancy)和运动(Flow)进行预测，以此来评估感知系统对高度动态及不规则驾驶场景的表示能力。

占据栅格 Occupancy：挑战更精细的环境感知与预测

道路布局的复杂性、交通工具的多样性以及行人流量的密集性，是当前城市道路交通的现状，也是自动驾驶领域面临的现实挑战。为了应对这一挑战，有效的障碍物识别和避障策略，以及对三维环境的感知和理解就变得至关重要。

传统的三维物体检测方法通常使用边界框来表示物体的位置和大小，但对于几何形状复杂的物体，这种方法往往无法准确描述其形状特征，同时也会忽略对背景元素的感知。因此，基于三维边界框的传统感知方法已经无法满足复杂道路环境下的精准感知和预测需求。

图2 - 针对挖车中的力臂，3D目标检测算法只能给出挖车整体的轮廓框（左），但占据栅格网络却可以更精准地描述挖车具体的几何形状这类细节信息（右）

Occupancy Networks（占据栅格网络）作为一种全新的自动驾驶感知算法，通过获取立体的栅格占据信息，使系统能够在三维空间中确定物体的位置和形状，进而有效识别和处理那些未被明确标注或形状复杂的障碍物，如异形车、路上的石头、散落的纸箱等。这种占据栅格网络使得自动驾驶系统能够更准确地理解周围的环境，不仅能识别物体，还能区分静态和动态物体。并以较高的分辨率和精度表示三维环境，对提升自动驾驶系统在复杂场景下的安全性、精度和可靠性至关重要。

浪潮信息AI团队一举绝杀，以48.9%的绝佳性能表现，创本赛道最高成绩！

在占据栅格和运动估计(Occupancy & Flow)赛道中，该AI团队所提交的“F-OCC”算法模型，凭借先进的模型结构设计、数据处理能力和算子优化能力，实现了该赛道最强模型性能，在RayIoU（基于投射光线的方式评估栅格的占用情况）及mAVE（平均速度误差）两个评测指标中均获得最高成绩。

更简洁高效的模型架构，实现运算效率与检测性能双突破

首先，模型整体选择基于前向投影的感知架构，并采用高效且性能良好的FlashInternImage模型。同时，通过对整体流程进行超参调优、算子加速等优化，在占据栅格(Occupancy)和运动估计(Flow)均获得最高分的同时，提升了模型的运算效率，加快了模型迭代与推理速度。在实际应用场景中，这种改进使得模型能够更快速、高效地处理大规模3D体素数据，使得自动驾驶车辆能更好地理解环境，进而提升决策的准确度和实时性。

图3 - F-OCC算法模型架构图

更强大完善的数据处理，全面提升模型检测能力

在数据处理方面，比赛提供的体素(Voxel)标签包含了大量在图像中无法观测到的点，例如被物体遮挡的体素和物体内部不可见的体素，这些标签在训练过程中会对基于图像数据的预测网络训练产生干扰。在训练数据中，该AI团队通过模拟LiDAR光束的方法，生成可视化掩码，提升了模型的预测精度；另一方面，通过引入感知范围边缘的体素点参与训练，有效解决出现在感知边缘区域的误检问题，将模型的整体检测性能提升11%。

更精细的3D体素编码，模型占据预测能力提升超5%

在3D体素特征编码模块中，该算法团队将具有较大感知范围和编码能力的可形变卷积操作应用于3D体素数据，以提升3D特征的表示能力。通过使用CUDA对可形变3D卷积(DCN3D)进行实现与优化，大幅提升了模型的运算速度，并有效降低了显存消耗。通过DCN3D替代传统3D卷积，模型整体占据预测能力提升超5%。

此外，基于开源大模型，浪潮信息AI团队也通过优化图像encoder模型和特征融合对齐方式，并从CoT（Chain of Thought）、GoT（Graph of Thought）、Prompt工程等方面的优化，提升了多模态模型对自动驾驶BEV图像的感知理解能力。最终以74.2%的成绩，摘得本届CVPR自动驾驶国家挑战赛 “大语言模型在自动驾驶中的应用”（LLM4AD）赛道的第五名！

从22年摘得nuScenes竞赛，纯视觉3D目标检测任务（nuScenes Detection task）第一名，并一举将关键性指标NDS提高至62.4%；23年，这支团队又再度夺冠，以77.6%的高分成绩再创3D目标检测全赛道最高成绩！从BEV纯视觉到BEV多模态，再至如今凭借“F-OCC”算法模型再度登顶CVPR 2024自动驾驶国际挑战赛, 占据栅格和运动估计任务(Occupancy & Flow)榜首，浪潮信息AI团队逐步探索，一路绝杀！为探索更高级别的自动驾驶技术提供了有力的支撑与经验。

最后，让我们共同期待这支团队在未来的精彩表现！

备注：文内所涉术语解释如下

Occupancy：在自动驾驶领域，通常称为“占据栅格”或“占用栅格”，其是一种3D语义占用感知方法，通过生成车辆周围环境的三维占用网格，为自动驾驶车辆提供障碍物检测、路径规划和车辆控制等关键功能；
RayIoU：是指通过光线投射的方式评估占据网格的占用情况(Ray-based Intersection over Union)，RayIoU可以用来衡量预测的占据网格与实际占据网格之间的重叠程度。RayIoU越高意味着预测准确度越高，模型性能越好；
mAVE: 是指平均速度误差(Mean Absolute Velocity Error)，其用于评估预测速度与真实速度之间的平均误差。mAVE值越低意味着预测结果与真值越接近；
体素(Voxel)：体积元素(Volume Pixel)的简称体积元素(Volume Pixel)的简称，其类似于二维图像中的像素，是构成三维图像的基本单元。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频