小米智能驾驶技术的一些猜测

最新推荐文章于 2024-07-26 00:30:00 发布

自动驾驶之心

最新推荐文章于 2024-07-26 00:30:00 发布

阅读量96

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247599143&idx=3&sn=266149da71dcb28a70dc1cf9eaa835ff&chksm=cfa0b2c9413293770c04d50f5cfe4fae2f6a73d595e641dd298752cb22742e85adea3db82315&scene=126&sessionid=0

版权

作者 | 其道大光编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/689680258

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『BEV感知』技术交流群

本文只做学术分享，如有侵权，联系删文

prologue

来蹭一下小米汽车智能驾驶的热度，昨晚听了雷总小米汽车的发布，心潮澎湃寻思下单一辆奈何现实不允许hhh。

言归正传吧，本来是想主要听一下小米智驾的但雷总并没有透露太多。自己也有一些疑问和猜测，写一写大家可以瞅一瞅交流一下。

（下面所有关于小米智能驾驶的图片均来自小米汽车官网）

第一个点是bev。

官网给了三个场景解释，分别是泊车，城区和高速。我们一般人困惑的第一个点就是为什么这个bev可变？按ppt的说法我理解是说在泊车场景的时候网络的划分会更细，分辨率会更高。我们都知道一般bev网络的输出分辨率是需要作为config在训练的时候给定的，怎么训的跑的时候就怎么跑，这个分辨率是给定的不能变。如果说你可以变，那config文件变了就意味着最起码神经网络后面的输出也要改变，网络是需要学习参数的。所以我猜测是训的时候就有不同分辨率，只是根据场景切换了输出模型。（更low一点也可能是好几个模型来回切，但应该不至于这么搞）至于有什么其他更妙的设计或许也有可能吧。如果这么来看那变焦bev似乎也没有很神秘，至于如何看的更宽更远我觉得也差不多同理，bev远范围的感知也有一些文章，一两百米的bev也能搞。

至于自适应应该说的是算法可以自己根据场景切换。这三个场景简单点就是手动切，高级点是自动切，是用网络去自己判断场景还是根据感知写规则去判断场景不得而知，但也是可以实现的功能。

第二个点是超分辨率占用网络技术。

emmm，感觉挺高级，但这个恰好我之前有了解过一些，不清楚小米是不是这样做的，但我给大家放两篇相关文章可以看一下，也能搞！

一篇是Semantic Scene Completion using Local Deep Implicit Functions on LiDAR Data

arxiv.org/pdf/2011.09141.pdf

另一篇是LODE: Locally Conditioned Eikonal Implicit Scene Completion from Sparse LiDAR

arxiv.org/pdf/2302.14052.pdf

也不卖什么关子这个叫隐式语义补全，他们都是用激光做的真值，不知道小米用的是激光还是视觉做的又或者是什么其他做法。我不清楚只是根据看到的东西和自己知道的一些在猜测，不一定对。

然后就是识别异性障碍物种类无上限，我们做目标检测一般都给定类别，对于没见过的东西可能就胡乱给结果了，所以对于各种各样的异性障碍物训练集里面不会都有，那就需要给一个other类。又或者一些开集的检测把视觉语言一起训，用语言监督视觉也可以做到超类别的检测，这个文章就很多很多了。

第三个雨雪天自动降噪。

这个我就想的很简单，对输入的数据先过降噪算法再进网络，这类算法也有但做的好也很难。

第四个小米道路大模型。

这个我就不是很懂了，这部分目前是有同事在做我不负责这个。但也给大家一些文章推荐吧。下面的文章不算很全，主要是新工作出来的太快了，像昊哥他们做的P-Mapnet。这部分不是很了解，但毕竟还是有大量可以参考所以也能搞！

第五个端到端感知决策大模型。

这个我其实很感兴趣，把感知和决策一起做了，但目前还是只搞感知，老板不允许啊我也不想说服他搞（已经放弃老板了）。小米这个感觉还是稳扎稳打的，先在泊车场景下验证端到端，后面走特斯拉的技术路线上限高一点。这部分的文章来看感知大家都很熟悉，但是决策部分给定的都比较简单，具体要量产控车，简单的左转右转直行停下肯定还是不够的，但老样子有文章的话就管中窥豹可见一斑。

总结

不吹不黑，个人感觉小米的智驾水平还是可以的，研发投入也很足。但也不能说是遥不可及真的让人耳目一新，技术需要积累，就上面这些东西我相信大家搭demo大家都可以做到，从0到60，但是真的能把任何一个技术从80做到90，甚至99都太难了，demo后面的每一步都难如登天。虽然不在小米打工但我还是很看好小米汽车未来的发展，雷总造车背后的节能减排智能智造，自动化工厂也是不是忽视的，雷总的格局肯定是大的。

上面全是个人不成熟的猜测，欢迎大家交流讨论!

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频