浅谈 Occupancy

地平线开发者

已于 2024-09-02 22:38:14 修改

阅读量1.8k

点赞数 19

文章标签：算法自动驾驶

于 2024-08-22 23:32:18 首次发布

本文链接：https://blog.csdn.net/agorachenyun/article/details/141440281

版权

01 研究意义

Occupancy Network 算法因为可以更好的克服感知任务中存在的长尾问题，以及更加准确表达物体的几何形状信息，而受到来自工业界和学术界越来越广泛的关注。

Occupancy Network 算法本质上是一个 3D 分割任务，通过将想要感知的 3D 空间划分成固定大小的体素网格，并让算法去预测每个体素网格被占用的概率以及可能包含的目标类别从而实现对全场景的感知。因其是对空间中的所有体素进行分类，所以对于数据集中未被标注的物体（比如土堆、石块等目标也可以预测为 General Objects，从而实现开放集的目标检测，即更好的克服检测中的长尾问题）；同时与直接输出一个物体粗糙 3D 框的算法相比，由于是直接对空间中的每个体素进行预测，所以对于不规则形状的目标，Occupancy Network 算法可以给出更加细粒度的形状表示，从而得到每个物体更加丰富的细节结构信息。

02 存在问题

尽管目前 Occupancy Network 相比于之前的基于 BEV 的 3D 感知算法有更好的感知优势，但因其将所要感知的环境空间利用 3D 体素特征进行中间表示，避免不了的会引入 3D 卷积等算子进行特征提取，无疑会大大增加模型的运算量和内存开销，从而为模型的上车部署造成不小的困难，严重影响了 Occupancy Network 算法的落地。

为此针对 Occupancy network 模型的轻量化是非常有必要的。

03 数据集选择

目前，在 3D 目标检测中开源的数据集包括 kitti，nuscenes，waymo，lyft，scannet，s3dis，sunrgbd，智能驾驶行业内没有统一的评测数据集，根据目前开源的基础数据集包括 kitti，nuscenes，waymo 其中 nuscenes 数据集应用较多，目前科研领域内采用 CVPR2023 占用预测挑战赛的 Occ3D-nuScenes 数据集的论文屡见不鲜。

04 主干网络部分

4.1 选择更合适的主干网络

目标检测任务中常见的主干网络包括：Resnet，Swin-transformer，ViT，Efficientnet，Vovnet，ShuffleNet，MobileNet，GhostNet，其中 Resnet，Swin-transformer，Vovnet 较为常见，Resnet-101，Resnet-50 网络更是大多数模型的主干网络。

ResNet（Residual Network）是由微软亚洲研究院的 Kaiming He 等人提出的，它在2015年的 I