迈向灵活的 3D 感知:以对象为中心的占领完成增强长序列的 3D 目标检测
虽然 3D 对象边界框(BBox)表示在自动驾驶感知中得到了广泛的应用,但它们缺乏捕捉对象内部几何形状的复杂细节的能力。最近,占有(occupancy)已经成为 3D 场景感知的一种很有前途的替代方案。然而,由于计算的限制,构建高分辨率的占用地图对于大型场景仍然是不可行的。认识到前景对象比背景元素更重要,但只占据场景的一小部分,我们引入了以对象为中心的占用作为对象 bbox 的补充。这种表示不仅为检测到的物体提供了复杂的细节,而且在实际应用中还允许更高的体素分辨率。我们从数据和算法两个角度推进了以对象为中心的占有感的发展。
有理论保证的无监督目标检测
使用深度神经网络的无监督目标检测通常是一个困难的问题,对于学习的表示几乎没有保证。在这项工作中,我们提出了第一种无监督目标检测方法,该方法在理论上保证可以恢复到可量化的微小位移的真实目标位置。我们开发了一种无监督的目标检测体系结构,并证明了学习的变量对应于真实的目标位置,直到与编码器和解码器的接受场大小、目标大小和渲染过程中使用的高斯宽度相关的小偏移。我们对误差如何依赖于这些变量进行了详细的分析,并进行了合成实验,以验证我们的理论预测,精度高达单个像素。
MonoMAE:通过深度感知掩蔽自动编码器增强单目 3D 检测
单目三维目标检测的目的是从单视图像中精确地定位和识别目标。尽管最近取得了进展,但它在处理普遍存在的对象遮挡时经常会遇到困难,这些遮挡往往会使对象尺寸、深度和方向的预测复杂化和降级。我们设计了 MonoMAE,这是一种单目3D 探测器,灵感来自于掩蔽自动编码器,它通过掩蔽和重建特征