知识点汇总!备战秋招Occupancy Network总结

作者 | 求求你们别学了  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/646144802

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【占用网络】技术交流群

本文只做学术分享,如有侵权,联系删文

传统的问题

cbb68428b40ec077163ab33523afb784.png
传统的2D感知或者BEV感知的缺点

Occupancy优点

c9d50b43e07aeed03caa62804347f173.png 8e3c37742bd83cc89838ed22a6f9bd61.png cc91685d117f3c8d1fee1568d6f0091a.png

思想

  • 不分动静态,用占据网格

  • 能否用分割完全代替目标检测(难,分割干扰太多,没有检测好)

  • 相机和lidar殊途同归,最后呈现的形式都差不多。因为真值相似,深度学习泛化。

  • 占据栅格更像是BEV的3D升级

  • bevformer和LSS的区别, LSS可解释性强,但是会被限制。BEV选LSS,3D栅格选former

Occupancy Networks:特斯拉占据栅格网络

特斯拉的Occupancy Networks是一种用于3D目标检测和场景重建的神经网络模型,它能够从点云数据中提取出场景中各个物体的三维形状、位置和朝向等信息。
Occupancy Networks的基本思想是将点云数据转化为一个体素网格,并在每个体素上学习一个二值分类器,用于判断该体素是否属于某个物体。具体地,网络首先将输入点云映射到一个球形表面上,并利用一个编码器将球面图像转换为一个隐式函数,该隐式函数可以预测空间中任意点的占据状态。然后,网络在三维空间中将该隐式函数采样为一个体素网格,并对每个体素进行二值分类,从而得到每个体素的占据状态,进而重建出场景中各个物体的三维形状。
Occupancy Networks具有很强的泛化能力,可以在仅有少量标注数据的情况下,实现高质量的物体检测和重建。此外,该模型还可以在物体检测的同时输出物体的朝向和位置,有助于实现更加精细的场景理解和场景重建。

这里输出的并非是对象的确切形状,而是一个近似值,可以理解为因为算力和内存有限,导致轮廓不够sharp,但也够用。另外还可以在静态和动态对象之间进行预测,以超过 100 FPS 的速度运行。基于视觉的系统有 5 个主要缺陷:地平线深度不一致、物体形状固定、静态和移动物体、遮挡和本体裂缝。特斯拉旨在创建一种算法来解决这些问题。新的占用网络通过实施 3 个核心思想解决了这些问题:体积鸟瞰图、占用检测和体素分类。这些网络可以以超过 100 FPS 的速度运行,可以理解移动对象和静态对象,并且具有超强的内存效率。

BEV->OCC

Bird's Eye View (BEV) 算法和 Occupancy Grid Mapping 是两种常用的环境感知和表示方法。BEV 是一种二维表示,它从鸟瞰视角(即,从上往下看)展示环境。而 Occupancy Grid Mapping 则是一种三维表示,它将环境划分为一系列的立方体(或称为体素,voxels),并为每个体素分配一个值,表示该体素是否被物体占据。

从 BEV 特征转换到 3D voxel 特征的一个常见方法是通过一系列的卷积和反卷积(或称为转置卷积)操作。这些操作可以将 2D BEV 特征映射到 3D 空间,生成一个 3D 特征图。然后,这个 3D 特征图可以被送入一个 3D 卷积网络,用于预测每个体素的占据状态。

然而,这种方法的一个挑战是,由于 3D 卷积操作的计算复杂性,处理大规模的 3D 特征图可能会非常耗时和计算密集。因此,一些方法可能会采用一些策略来降低计算复杂性,例如,只在感兴趣的区域(例如,地面附近的区域)进行 3D 卷积,或者使用稀疏卷积来只处理那些包含有意义信息的体素。

总的来说,从 2D BEV 特征转换到 3D voxel 特征,然后再接上一个预测占据状态的head,可以被看作是一种占据栅格算法。但是,具体的实现细节可能会根据具体的应用和需求有所不同。

14ab4ab528d9a7543357205b1971ed3d.png
Occ-BEV论文方法
6a8ad5d50fdb80b4f3c8b096a6af3eda.png

总结:

  • 当前仅基于视觉的系统的算法存在问题:它们不连续,在遮挡方面做得不好,无法判断物体是移动还是静止,并且它们依赖于物体检测。因此,特斯拉决定发明“Occupancy network”,它可以判断 3D 空间中的一个单元格是否被占用。

  • 这些网络改进了 3 个主要方面:鸟瞰图、物体类别和固定大小的矩形。

  • occupancy network分 4 个步骤工作:特征提取、注意和occupancy检测、多帧对齐和反卷积,从而预测光流估计和占用估计。

  • 生成 3D 体积后,使用 NeRF(神经辐射场)将输出与经过训练的 3D 重建场景进行比较。

  • 车队平均采集数据用于解决遮挡、模糊、天气等场景

a587cd352975f28d64b3f53765d9519d.png add0b3af0c446aa30a04bfd2e2cb6ace.png

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码学习)

1c2b4e09b537a3b64bd49a4fff7f6d08.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

5ad327660d03ce107502b487841dff02.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

cc73568666283dcf1752c134f488b2e3.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

3131459505f04baf92fadb5ed80c9aca.jpeg

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值