聊一聊我们在远距离双目感知的一些看法

作者 | 黄奇浩  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/681075174

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【3D目标检测】技术交流群

本文只做学术分享,如有侵权,联系删文

受 王峰:远距离LiDAR感知 启发,作为实打实的 L2+ RoboTruck 同行 ,我也来分享分享 智加/Plus 在远距离感知上的一些积累,作为工作一段时间的总结。

既然特斯拉、百度/极越已经在一定规模下证明了纯视觉 L2+ (highway/city, FSD) 的可行性,那为什么还要去研究双目呢?双目、LiDAR 相较于 2M 的 30/60/120 和 8M 的 30/120 的区别是什么?我的看法是:

  • 在线:在数据规模有限的情况下,双目和 LiDAR 一样,能快速提升感知性能上限;

  • 离线:可用于 auto-label 中的预标注、建图;

  • 成本:相较于 LiDAR,在成本上有显著优势;

  • 标定:前向标定在流程上也会更简单;

  • 架构:双目硬同步 (vision-centeric),来触发、对齐其他相机,相较于 LiDAR-centeric 更精准。

我们的效果和大疆、鉴智释放的图片、视频一样,可以实现稠密、准确的深度估计。但是很可惜,基于 DL-Stereo 的方法需要稠密的深度 GT,而现在的 LiDAR 往往只能提供 150m 内的 GT. Livox Tele 的 FoV 较小,超远处的反射率和点数不足以支撑我们的需求和场景。最终在远距离使用的,还是基于传统特征的稠密/稀疏匹配。

不同于现在流行的前向单目、三目、长短焦双目,同构双目的玩家其实并不多。乘用车领域,国内做得最好的应该是大疆、鉴智,国外是维宁尔、奔驰。我先来分享分享他们的进展和优势。

玩家们

大疆

  • 在宝骏的一系列产品中交付:云朵、KiWi、悦也的高配版本,能够实现城区记忆行车。

e774e76d52b83f61741f0f3b8817f9a2.png
和大疆一样,智加也通过双目强化了 Lane, 3D Det, Calib, Depth 等模块。
90ba5d4ead5d600b784569e7e153c830.png

鉴智

  • 鉴智分享过很多 demo,实现了基于双目的魔毯、智能底盘功能,和蔚来/奔驰的 4D 底盘异曲同工,也算是近年来把双目作为核心优势的重要玩家。

b15b4dd171c0ee85732e24de30cfad65.png
鉴智优化了 HKBU 的工作 FADNet
2177d2bef190d1c10e34dc30be752bf2.png
也有做 MVS 和全向深度估计 Full Surround Monodepth from Multiple Cameras (TRI-ML/VIDAR)

地平线

  • 地平线 PoC 过双目,也有一些开源的工作,后续再观望观望。

奔驰

  • 老法师奔驰早在13年前就分享过基于 stixel 的双目深度估计、freespace 预测 / 参考。

英伟达

英伟达作为奔驰的重要合作伙伴,优化、实现了不少双目的工作:

  • https://github.com/NVIDIA-AI-IOT/redtail/tree/master/stereoDNN

  • VPI - Vision Programming Interface

  • Stereo Disparity Sample

  • ACCELERATING OPTICAL FLOW AND STEREO DISPARITY ESTIMATION USING THE NVIDIA A100 OFA ENGINE

维宁尔 (Veoneer)

  • 维宁尔曾是宝马、斯巴鲁的双目供应商,在2018年的投资者日上曾分享过双目规划。可以看到,基础方法论还是奔驰分享的 stereo stixel

058eb5b67e35270c59f163241c452cef.png f0cdd008b183f7ec0977b65c0e4709c9.png 6350d9b7743ef558f45303be91fd4089.png

华为 ADS 1.0

  • 华为在 ADS 1.0 上规划了前向四目,除了广角和长焦外,还有一对双目。不过从 ADS 2.0 的交付来看,最终还是拥抱了 LiDAR-centeric 而不是双目视觉。

ArgoAI

8d3f0252447143a2ce3c4ad6a545c370.png 55fbf4a9dc749ff41955a757a22184ed.png
ArgoVerse stereo 相较于 KITTI stereo 更符合现在的自动驾驶场景需求。
  • ArgoAI 1/2 都包含了双目数据,在 CVPR 2021/2022 都举办过比赛。但里面都是一些成熟模型的 finetune 和刷点,缺乏一些新意和实践价值。

安霸/VisLab

  • 多组双目系统的想法一开始由安霸/VisLab 的视频启发,他们实现了一个前向两对双目(包括长焦)的系统。还有一个视频,很可惜找不到了,这个视频描述了 VisLab 在 side 和 rear 装了多组双目,实现实时的全向深度估计。这个想法,很类似于 Mobileye 2020年发布的 VIDAR,以及 TRL 的 Full Surround Monodepth. 这些成果,都来源于VisLab 十多年的立体视觉研究积累。

ForeSight

  • ForeSight 分享过他们的异构双目系统,我曾经去常州实车体验过:

  • 前向 120 度和 bumper 200 度广角实现的双目 (类似于 TW-SMNet)

  • 车顶的 30 度 RGB 双目

  • 车顶的 IR 红外双目

  • 这块可以参考:

  • iPhone 15 上的空间视频拍摄 / Tele

  • GitHub - ComVisDinh/disparityestimation: Deep Network Exploitation for Disparity Estimation Using Stereo Images with Different Focal Lengths

  • 视角不平衡立体匹配研究-CSDN博客

72a8050dd61b4c579c7e61feaff309f2.png

蔚来/理想

  • 蔚来/理想的两个 front side 相机 FOV overlap 较小,非光心对齐同构。也不是不能做双目,但可能效果较差。

8315afd0e257bc79ababad81036c068c.png 136901bcac9a48bdc5f6977a9c2298f7.png

智加/Plus

b75f0dbb20ae47054919495af649f1a9.png
在 Plus 创业伊始 16-18 间的 stereo demo

无论是 2021 年量产交付的解放 J7+, 还是 2023 年的江淮 K7+、2024 年的柳汽 H7+,长基线双目都是我们最核心的模块。多年前,我们曾发布过 1km 以上的目标感知结果,但那是基于 L4 状态下的超宽基线(双目布置在车侧, 2.8m 基线)。在 L2+ 量产平台下,我们需要将双目摄像头放在挡风玻璃内,能够被雨刮覆盖,并满足法规和稳定性要求。

5e72649500fd14b0a1d9f33ee6917cf6.png

在感知架构上,最早期,感知方案主要还是 2D 检测为主,通过 2D 检测去抠深度图,或者通过接地点等几何先验去测距。渐渐的,有了很多 Mono3D 检测,Stereo3D 检测的工作。最后,收敛到 BEV 前融合 3D 检测,甚至全稀疏的 Sparse BEV. 但不管何时,在前向远距离感知上,双目都能够持续提升感知的整体上限。例如,我们做过不少事情去探索双目的价值:

第一件事是,通过 SGM/optical flow 这些底层特征,识别非标/超宽障碍物。但实践下来,很难简单地与 3D 表达兼容。我们渐渐地发现,相较于2D 视角,BEV/Occupancy 是一个更优雅的框架去解决这些难题。逻辑上还是相似的,BEV/Occ 仍然需要去表达、解释这些稠密的底层特征和时序特征。

de84d5c4164fc40a851672d9c07f6a28.png
通过稠密深度图去避让超宽车
e256fefa65a2fe75a142928a59a17d12.png
通过光流 motion seg 去识别障碍物

第二件事是,仅对 bbox 内的点去做 match,相同精度下仅有 1/2 latency,并能提升远处 recall. 即使在夜晚,我们也能有 300m 的稳定 trakcing.

bdf179835be7ebb6f219be6c0ff0756e.png

第三件事是,在高分辨图下,动态裁剪 2M 原图,通过一个额外的 2D 检测器以及稀疏匹配,实现远距离小目标 2倍 tracking 性能的提升 (cone, 80m->160m), 整体感知 tracking 距离从 300m+ 到近 400m.

c0158ebc8b0812beb458c3233fe73393.png

第四件事是,实现长焦双目。效果显而易见, Z=fb/d. 焦距 f 的提升能够简单而有效地提升远处距离性能。但简单替换相机,会造成前向盲区过大的问题。在框架上,需要通过广角相机去做车道线等模块。有一定的系统迁移成本。

e64bd47ef70da412c4e61f7ba59f9a4a.png

总结

无论是图森的 LiDAR-centeric 方案,还是智加的 Stereo-centeric, 核心本质还是提升远距离 tracking 的稳定性。就好像 @王峰 提到的 “对于远距离感知的探索不能说是一帆风顺,简直就是满路荆棘。”

上面这些工作,都是在 Xavier 低算力平台下循序渐进的思考和实践。在 Orin 平台下,我们已经渐渐地过渡到视觉 BEV 3D 框架。但正如图森的分享,在卡车领域里,数以亿计的 2D 数据仍然在和 3D 需求互相融合,继续完善。

后续的实践,是将高分辨率 RoI 双目集成到 BEV 框架中。当有充沛的远距离 GT 数据时,不管是 dense-bev 还是 sparse query bev,都能看得更远更稳。等待合适时机再跟大家分享 :-P

最后也是最重要的,要感谢智加/Plus 的同事们 (Tim, Mianwei, Darren, Philip, Andy, Tong, Peidong, Xingjian, Fuyue, Xuyang),我只是起到了个承上启下的作用 。

04c0850f58a62458c1d7993181ef01c4.png

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

1046088e35a6215e4d517cc793100c52.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2400人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

353aa90e7b25bb062ddd6428c73b62c8.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

3b0c1909513470501d37682d789a591f.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

466cd92cf12f2003a34b6e19b6a450f2.jpeg

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本火锅店点餐系统采用Java语言和Vue技术,框架采用SSM,搭配Mysql数据库,运行在Idea里,采用小程序模式。本火锅店点餐系统提供管理员、用户两种角色的服务。总的功能包括菜品的查询、菜品的购买、餐桌预定和订单管理。本系统可以帮助管理员更新菜品信息和管理订单信息,帮助用户实现在线的点餐方式,并可以实现餐桌预定。本系统采用成熟技术开发可以完成点餐管理的相关工作。 本系统的功能围绕用户、管理员两种权限设计。根据不同权限的不同需求设计出更符合用户要求的功能。本系统中管理员主要负责审核管理用户,发布分享新的菜品,审核用户的订餐信息和餐桌预定信息等,用户可以对需要的菜品进行购买、预定餐桌等。用户可以管理个人资料、查询菜品、在线点餐和预定餐桌、管理订单等,用户的个人资料是由管理员添加用户资料时产生,用户的订单内容由用户在购买菜品时产生,用户预定信息由用户在预定餐桌操作时产生。 本系统的功能设计为管理员、用户两部分。管理员为菜品管理、菜品分类管理、用户管理、订单管理等,用户的功能为查询菜品,在线点餐、预定餐桌、管理个人信息等。 管理员负责用户信息的删除和管理,用户的姓名和手机号都可以由管理员在此功能里看到。管理员可以对菜品的信息进行管理、审核。本功能可以实现菜品的定时更新和审核管理。本功能包括查询餐桌,也可以发布新的餐桌信息。管理员可以查询已预定的餐桌,并进行审核。管理员可以管理公告和系统的轮播图,可以安排活动。管理员可以对个人的资料进行修改和管理,管理员还可以在本功能里修改密码。管理员可以查询用户的订单,并完成菜品的安排。 当用户登录进系统后可以修改自己的资料,可以使自己信息的保持正确性。还可以修改密码。用户可以浏览所有的菜品,可以查看详细的菜品内容,也可以进行菜品的点餐。在本功能里用户可以进行点餐。用户可以浏览没有预定出去的餐桌,选择合适的餐桌可以进行预定。用户可以管理购物车里的菜品。用户可以管理自己的订单,在订单管理界面里也可以进行查询操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值