![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
BEV and occupancy
文章平均质量分 92
关于 BEV 和 Occupancy networks 相关技术
calvinpaean
Carpe diem.
展开
-
Trajectory-guided Control Prediction for End-to-end Autonomous Driving论文学习
端到端自动驾驶方法直接将原始传感器数据映射为规划轨迹或控制信号,范式非常简洁,从理论上避免了多模块设计的错误叠加问题和繁琐的人为规则设计。当前的端到端自动驾驶方法主要有两条独立的研究路线,要么基于规划轨迹来运行控制器,要么直接预测控制信号。端到端模型的预测输出一般有两种形式:轨迹/路径点和直接控制动作。但是,至于哪一种更好仍没有定论。可以直接用于车辆上,而则需要额外的控制器如 PID 控制器来将规划轨迹转化为控制信号。原创 2023-11-04 22:57:57 · 436 阅读 · 0 评论 -
BEV-YOLO 论文学习
出于安全和导航的目的,自驾感知系统需要全面而迅速地理解周围的环境。目前主流的研究方向有两个:第一种传感器融合方案整合激光雷达、相机和毫米波雷达,和第二种纯视觉方案。传感器融合方案的感知表现鲁棒,但是成本高,所要面临的环境挑战不少,因此大规模部署不太现实。纯视觉方案只依赖于相机传感器做感知,成本低廉,可以持续迭代。因此,纯视觉方案可能是自动驾驶行业的终极方向。目前,纯视觉领域的研究焦点就是如何生成环境 BEV 图,赋能车载感知系统。原创 2023-11-04 21:44:07 · 1417 阅读 · 3 评论 -
UniAD 论文学习
当前的自动驾驶方案大致由感知(检测、跟踪、建图)、预测(motion、occupancy)和规划三个模块构成。为了实现各种功能,智驾方案大致包括两种路线。一种是针对每个任务都部署一个模型,该范式能降低各团队间的研发困难度,但由于各个优化目标是孤立的,会引发模块之间信息丢失、错误累加和特征不对齐的问题。另一种是多任务的设计路线,多个任务 heads 共享一个特征提取器,该范式能节省边缘计算平台的资源消耗,并且扩展性强,但会带来“负迁移”的问题。原创 2023-10-08 23:53:17 · 1140 阅读 · 0 评论 -
BEVPoolv2 A Cutting-edge Implementation of BEVDet Toward Deployment 论文学习
在上一版本的 BEVDet 中,继承了 CenterPoint 的感受野,没做任何改动。CenterPoint 的感受野以 LiDAR 坐标系的原点为中心点,但评测时是以 IMU (自车)坐标系的原点为感受野的中心,感受野不一致。它继承了 BEVDet 的优势,从工程优化的角度做了改进。BEVPoolv2 对 BEVDet 的视角变换过程做了工程优化,计算和存储都得到了大幅度的释放。支持了 BEVDepth 的全部改进,包括 LiDAR 的深度监督、深度修正、camera-aware 的深度预测。原创 2023-07-23 19:53:55 · 1066 阅读 · 0 评论 -
BEVDet4D 论文学习
全局坐标系为。原创 2023-05-21 15:10:02 · 1357 阅读 · 0 评论 -
BEVDet 论文学习
自动驾驶系统感知周围的环境再进行决策,极具挑战。基于视觉的自动驾驶系统对准确性和效率的要求很严格,人们会采用不同的范式来解决 3D 检测和分割任务。对于多相机 3D 目标检测,image-view-based 方法如 FCOS3D 和 PGD 处于领先位置;对于 BEV 语义分割任务,则由 BEV-based 方法如 PON、LSS 和 VPN 主导。本文试图通过一个范式来解决 3D 目标检测和 BEV 语义分割问题。原创 2023-05-21 15:08:25 · 943 阅读 · 0 评论 -
CaDDN 论文学习
单目 3D 目标检测是自动驾驶的重要课题,与一般的多传感器系统相比,它具有简洁、成本低、易部署的优点。单目 3D 检测的主要挑战在于能否准确预测目标的深度。由于缺乏直接的测量手段,我们只能从目标和场景信息推断,因此单目 3D 检测的表现远落后于 LiDAR 和双目视觉的方案。一些单目目标检测方法会单独训练一个深度估计网络,直接学习深度信息。但在 3D 检测阶段,它们直接使用估计的深度信息,缺乏对深度置信度的理解,网络对预测的深度值过于相信,造成模型对于大尺度范围的深度估计不准确。原创 2023-05-21 15:01:22 · 624 阅读 · 0 评论 -
Lift, Splat, Shoot 论文学习
LSS 在工业界具有非常重要的地位。自从 Tesla AI Day 上提出了 BEV 感知后,不少公司都进行了 BEV 工程化的探索。传统的视觉任务如图像分类不考虑帧坐标系;而目标检测和分割任务则是在同一帧的坐标系进行预测。对于自动驾驶任务,输入来自于多个传感器,帧坐标系各不相同。算法最终的输出结果会表现在一个新的坐标系里(即车辆自身 ego frame 的坐标系),以供下游任务使用。原创 2023-05-21 14:56:31 · 1283 阅读 · 0 评论 -
PETRv2 论文学习
过去,一般使用基于单目视觉进行 3D 目标检测。现在进行 3D 任务的方法大致分两类。一类是基于 BEV,将多视角图像映射为 BEV 表征,然后使用 3D 目标检测方法。另一类是基于 DETR,如 DETR3D 和 PETR,定义了 3D 空间的 object queries,在 transformer decoder 中 object queries 与多视角的图像互相作用。像 BEVFormer 和 BEVDet4D 都使用了时域建模,在 BEV 空间对齐连续帧的特征,改进速度预测。原创 2023-05-21 14:53:16 · 1502 阅读 · 0 评论 -
PETR 论文学习
DETR3D 为端到端的 3D 目标检测提供了一个思路。但是,DETR3D 中的 2D 到 3D 的变换会带来一些问题。所以,要想摆脱 2D-to-3D 变换和特征采样,构建一个在线端到端的 3D 检测器仍是一个难题。原创 2023-05-21 14:45:31 · 1620 阅读 · 0 评论 -
BEVFormer 论文学习
3D 视觉感知任务,包括基于多相机图像的 3D 目标检测和分割,对于自动驾驶系统非常重要。与基于 LiDAR 的方法相比,基于相机图像的方法能够检测到更远距离的目标,识别交通信号灯、交通标识等信息。有一些方法使用单目画面,然后进行跨相机的后处理操作;这类方法的缺点就是各图像是分开处理的,无法取得跨相机的画面信息,因而效果和效率都比较差。与单目方法相比,BEV 是表示周围环境的常用方法,它能清晰呈现目标的位置和大小,适合自动驾驶感知和规划任务。原创 2023-05-21 14:39:19 · 1233 阅读 · 0 评论 -
DETR3D 论文学习
对于低成本自动驾驶系统,仅凭视觉信息进行 3D 目标检测是非常有挑战性的。目前的多相机 3D 目标检测方法有两类,一类直接对单目图像做预测,没有考虑 3D 场景的结构或传感器配置。这类方法需要多步后处理,融合不同相机输出的预测结果,去除冗余边框。另一类方法则使用了 3D 重建,从图像信息构造 pseudo-LiDAR 数据或场景的深度信息,然后应用 3D 目标检测方法。但是这类方法会面临复合性错误,若深度信息估计错了,则 3D 目标检测就会很受影响。原创 2023-05-21 14:34:21 · 1463 阅读 · 0 评论 -
Deformable DETR 论文学习
DETR 去除了目标检测算法中的人为设计,取得了不错的表现。原创 2023-05-21 14:29:05 · 1291 阅读 · 0 评论 -
End-to-End Object Detection with Transformers 论文学习
DETR 中的 self-attention 机制对目标和图像全局信息之间的关系做推理,直接输出检测结果,排除重复预测。如图,在第一个 decoder 后添加 NMS 能提升表现,是因为单个的 decoder 无法计算输出元素之间的相互关系,有可能会对同一个目标产生多个预测。DETR 的主干网络为 ResNet-50,有6个 encoder,6个 decoder,宽度为 256。现有的目标检测算法需要大量的人为先验的设计,如 anchor 和 NMS,整体架构并不是端到端的。Decoder 对这。原创 2023-05-21 14:20:00 · 330 阅读 · 0 评论