小米智能驾驶技术的一些猜测

作者 | 其道大光  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/689680258

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心BEV感知技术交流群

本文只做学术分享,如有侵权,联系删文

prologue

来蹭一下小米汽车智能驾驶的热度,昨晚听了雷总小米汽车的发布,心潮澎湃寻思下单一辆奈何现实不允许hhh。

言归正传吧, 本来是想主要听一下小米智驾的但雷总并没有透露太多。自己也有一些疑问和猜测,写一写大家可以瞅一瞅交流一下。

(下面所有关于小米智能驾驶的图片均来自小米汽车官网)

69f51cd33918b37bddc06e7703d79ab2.png

第一个点是bev。

官网给了三个场景解释,分别是泊车,城区和高速。我们一般人困惑的第一个点就是为什么这个bev可变?按ppt的说法我理解是说在泊车场景的时候网络的划分会更细,分辨率会更高。我们都知道一般bev网络的输出分辨率是需要作为config在训练的时候给定的,怎么训的跑的时候就怎么跑,这个分辨率是给定的不能变。如果说你可以变,那config文件变了就意味着最起码神经网络后面的输出也要改变,网络是需要学习参数的。所以我猜测是训的时候就有不同分辨率,只是根据场景切换了输出模型。(更low一点也可能是好几个模型来回切,但应该不至于这么搞)至于有什么其他更妙的设计或许也有可能吧。如果这么来看那变焦bev似乎也没有很神秘,至于如何看的更宽更远我觉得也差不多同理,bev远范围的感知也有一些文章,一两百米的bev也能搞。

至于自适应应该说的是算法可以自己根据场景切换。这三个场景简单点就是手动切,高级点是自动切,是用网络去自己判断场景还是根据感知写规则去判断场景不得而知,但也是可以实现的功能。

2677dcef7cdf64d977086982c21ef8c9.png

第二个点是超分辨率占用网络技术。

emmm,感觉挺高级,但这个恰好我之前有了解过一些,不清楚小米是不是这样做的,但我给大家放两篇相关文章可以看一下,也能搞!

4176bd41b24c2c1e8db0338098b16a64.png

一篇是Semantic Scene Completion using Local Deep Implicit Functions on LiDAR Data

arxiv.org/pdf/2011.09141.pdf

a59d42d473d53f93742440189822b1e6.png

另一篇是LODE: Locally Conditioned Eikonal Implicit Scene Completion from Sparse LiDAR

arxiv.org/pdf/2302.14052.pdf

bd70b21d1718487586ae0ff27e33c0b0.png

也不卖什么关子这个叫隐式语义补全,他们都是用激光做的真值,不知道小米用的是激光还是视觉做的又或者是什么其他做法。我不清楚只是根据看到的东西和自己知道的一些在猜测,不一定对。

然后就是识别异性障碍物种类无上限,我们做目标检测一般都给定类别,对于没见过的东西可能就胡乱给结果了,所以对于各种各样的异性障碍物训练集里面不会都有,那就需要给一个other类。又或者一些开集的检测把视觉语言一起训,用语言监督视觉也可以做到超类别的检测,这个文章就很多很多了。

第三个雨雪天自动降噪。

这个我就想的很简单,对输入的数据先过降噪算法再进网络,这类算法也有但做的好也很难。

14e0bf9d591c83e6a8672ef50bbc2492.png

第四个小米道路大模型。

这个我就不是很懂了,这部分目前是有同事在做我不负责这个。但也给大家一些文章推荐吧。下面的文章不算很全,主要是新工作出来的太快了,像昊哥他们做的P-Mapnet。这部分不是很了解,但毕竟还是有大量可以参考所以也能搞!

0f1e06d5d9f0073f3d7c52f6c1e79156.png

第五个端到端感知决策大模型。

这个我其实很感兴趣,把感知和决策一起做了,但目前还是只搞感知,老板不允许啊我也不想说服他搞(已经放弃老板了)。小米这个感觉还是稳扎稳打的,先在泊车场景下验证端到端,后面走特斯拉的技术路线上限高一点。这部分的文章来看感知大家都很熟悉,但是决策部分给定的都比较简单,具体要量产控车,简单的左转右转直行停下肯定还是不够的,但老样子有文章的话就管中窥豹可见一斑。

d5a2045f71e19e86f8277793fbd29e16.png

总结

不吹不黑,个人感觉小米的智驾水平还是可以的,研发投入也很足。但也不能说是遥不可及真的让人耳目一新,技术需要积累,就上面这些东西我相信大家搭demo大家都可以做到,从0到60,但是真的能把任何一个技术从80做到90,甚至99都太难了,demo后面的每一步都难如登天。虽然不在小米打工但我还是很看好小米汽车未来的发展,雷总造车背后的节能减排智能智造,自动化工厂也是不是忽视的,雷总的格局肯定是大的。

上面全是个人不成熟的猜测,欢迎大家交流讨论!

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

f253ab37b7f4357a530598f52a6d5b28.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

dd880baa2698bfd3026ebd016efba476.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!

自动驾驶感知:目标检测、语义分割、BEV感知、毫米波雷达视觉融合、激光视觉融合、车道线检测、目标跟踪、Occupancy、深度估计、transformer、大模型、在线地图、点云处理、模型部署、CUDA加速等技术交流群;

多传感器标定:相机在线/离线标定、Lidar-Camera标定、Camera-Radar标定、Camera-IMU标定、多传感器时空同步等技术交流群;

多传感器融合:多传感器后融合技术交流群;

规划控制与预测:规划控制、轨迹预测、避障等技术交流群;

定位建图:视觉SLAM、激光SLAM、多传感器融合SLAM等技术交流群;

三维视觉:三维重建、NeRF、3D Gaussian Splatting技术交流群;

自动驾驶仿真:Carla仿真、Autoware仿真等技术交流群;

自动驾驶开发:自动驾驶开发、ROS等技术交流群;

其它方向:自动标注与数据闭环、产品经理、硬件选型、求职面试、自动驾驶测试等技术交流群;

扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

69659f9369d0a86655d5c9afc783e5fa.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

140bad0731f7c7228e041a2fef679c20.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值