作者 | 浦东新村轱天乐 编辑 | 自动驾驶Daily
原文链接:https://zhuanlan.zhihu.com/p/668906025
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【数据闭环】技术交流群
本文只做学术分享,如有侵权,联系删文
最近做了一段时间的Auto labeling,也跟很多人交流了对数据的看法。总的来说,大家看法还是一致的,数据很重要,对数据的理解也很重要。下面是我听到的两个印象深刻的观点:
“模型会开源,但数据不会。
”
在招聘时,你是想要一个会训模型的,还是要会挖数据的?市场上会训模型的简历一大堆,但会做数据的人不多,这就能突出与别人的不同,差异化竞争。
扯远了,还是回到Tesla auto labeling。
两年前在重点关注他们的感知方案,现在则是重点关注Auto labeling方案,果然是屁股决定脑袋。
这段时间又断断续续看了好几遍,看的时候觉得很有收获,看完就忘了。记录一下,有兴趣的可以一起交流一下。
以下内容来源于tesla 2021 AI Day,2021 Andrej Karpathy CVPR分享,2022 AI Day三个视频,试图分析一下tesla的auto能力和技术演进方向,主要包括Auto labeling和Simulation两方面,下面将按照视频逐个解读。
2021 Andrej CVPR分享
为了训练出一个好的神经网络,最先需要的是一个非常好的数据集,数据集有三个最重要的属性,large,clean,diverse。
![e2785701a60378af5203948e7523fd54.png](https://img-blog.csdnimg.cn/img_convert/e2785701a60378af5203948e7523fd54.png)
举了两个实际的例子,车上掉碎片和大雪场景,看不清前方是否有车,来说明Tesla是如何通过Auto labeling来解决这两类问题的。
Tesla开发了221个rule based triggers,如下图所示。
![3a1ed312c4c0201a31c6135cd0850364.png](https://img-blog.csdnimg.cn/img_convert/3a1ed312c4c0201a31c6135cd0850364.png)
Data Engine模块,由预设定的Trigger,挖掘出检测不好的场景。
![6b10d3fee911037df48e52ceb062ba7a.png](https://img-blog.csdnimg.cn/img_convert/6b10d3fee911037df48e52ceb062ba7a.png)
最终的数据集由7轮影子模式获得,包含100万个10s的video(强调高度不同的场景),60亿个object label。
![8594752efe2647a96d0952b253c94c63.png](https://img-blog.csdnimg.cn/img_convert/8594752efe2647a96d0952b253c94c63.png)
最终发布之前,会跑6000个包含70种场景,人工挑选的有挑战的clips,10000个仿真场景等。
![1c01c96572e3940e49d849390ac3154a.png](https://img-blog.csdnimg.cn/img_convert/1c01c96572e3940e49d849390ac3154a.png)
![705bc3e6f593b10ea617a54f07be7cda.png](https://img-blog.csdnimg.cn/img_convert/705bc3e6f593b10ea617a54f07be7cda.png)
特斯拉2021人工智能日AI Day
分人工标注、自动标注、Simulation和大规模数据产生4个部分来阐述。其中autolabeling部分是上文CVPR的扩展版,此处重点讲解Simulation部分。
![9eb270b0472284ffc8ba2c9286735ffd.png](https://img-blog.csdnimg.cn/img_convert/9eb270b0472284ffc8ba2c9286735ffd.png)
Simulation的作用,产生如下3种场景的perfect label:很难找到的corner case,如图中高速上跑步的人;很难标注的场景,如拥挤的人群;, closed loop,闭环仿真?(没看懂)
![ea0cd6a02601053ca81bd80ef97a884f.png](https://img-blog.csdnimg.cn/img_convert/ea0cd6a02601053ca81bd80ef97a884f.png)
为了提高仿真效果,Tesla做了如下5点:
传感器建模
![225e8f8a37cdfcb8bfe09cf0b28054cf.png](https://img-blog.csdnimg.cn/img_convert/225e8f8a37cdfcb8bfe09cf0b28054cf.png)
真实级渲染,提到了抗锯齿算法
![01baf46d2bf631d14879a703adc662ec.png](https://img-blog.csdnimg.cn/img_convert/01baf46d2bf631d14879a703adc662ec.png)
重建2000英里的静态背景,以及动态物体(称为Actors,跟Unisim中对动态物体的称呼一样)。这里的意思是对录制的场景,mask掉动态的物体,先重建出静态背景,再重建动态物体,再将两者组合起来,就形成了新的场景。图森的场景重建也是类似的做法。
![ea0e64fe0d8542f1458eefe8432ee6d8.png](https://img-blog.csdnimg.cn/img_convert/ea0e64fe0d8542f1458eefe8432ee6d8.png)
![186632b712da114d0c2d8749648796b4.png](https://img-blog.csdnimg.cn/img_convert/186632b712da114d0c2d8749648796b4.png)
大量的场景生成
![253803dafff51f7b21e0b378c1ef0507.png](https://img-blog.csdnimg.cn/img_convert/253803dafff51f7b21e0b378c1ef0507.png)
场景重建,这里应该就是用的NeRF方法。
![e5f60c4545387bdd769338410bd4d374.png](https://img-blog.csdnimg.cn/img_convert/e5f60c4545387bdd769338410bd4d374.png)
![92044a89452eaac39193da201d88cf04.png](https://img-blog.csdnimg.cn/img_convert/92044a89452eaac39193da201d88cf04.png)
Simulation真正发挥的作用:
![cdb0506f5cb78451a96dbefbe8317f89.png](https://img-blog.csdnimg.cn/img_convert/cdb0506f5cb78451a96dbefbe8317f89.png)
2022 ai day
在2022年的AI day上讲的方案,我认为最重要的两点是,海量数据,训练集和评测集都不断更新。
1 数据构成
数据分为human label, auto label和simulation label。
![5a6f412090f1f71207640448edd4e8ac.png](https://img-blog.csdnimg.cn/img_convert/5a6f412090f1f71207640448edd4e8ac.png)
2 benchmark也会不断更新
这跟我所了解的几家公司并不太一样,他们还常常是一个benchmark用上几年。
但由于benchmark的分布和真实一定是不一致的,如果benchmark不做更新,时间久了之后,很多工作都是在过拟合的优化,benchmark反应不出模型的性能变化,会变得不可信。
如下图是一个tesla通过数据挖掘来优化路边停止车辆运动状态检测不稳定造成的误刹车问题。其训练集、测试集是同时在更新的,检测精度是在稳步上升,这样才能真正反映出模型的性能提升。
![76982524a90354b9d33373c847ad50db.png](https://img-blog.csdnimg.cn/img_convert/76982524a90354b9d33373c847ad50db.png)
3 Lane的Auto labeling
这里框图把训练数据分为了三块,Auto labeling, Simulation, Data Enigne
![9ff089afb8702c3ae30054bda4ad68c2.png](https://img-blog.csdnimg.cn/img_convert/9ff089afb8702c3ae30054bda4ad68c2.png)
对于Lane,首先强调了自动标注的效率,对于10000次trip,人工500万小时,auto 12小时。
![a5c2a2efa7c9b3ae114f279d10bd269e.png](https://img-blog.csdnimg.cn/img_convert/a5c2a2efa7c9b3ae114f279d10bd269e.png)
输入输出如下图所示
![6c1e09acc979dd54725c93958e4a3992.png](https://img-blog.csdnimg.cn/img_convert/6c1e09acc979dd54725c93958e4a3992.png)
![111a7402debf0cbba5be2d959951f8ee.png](https://img-blog.csdnimg.cn/img_convert/111a7402debf0cbba5be2d959951f8ee.png)
① 全网独家视频课程
BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
![cfbe01cdd10d0a8df38f8ac90a940942.png](https://img-blog.csdnimg.cn/img_convert/cfbe01cdd10d0a8df38f8ac90a940942.png)
② 国内首个自动驾驶学习社区
近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
![7cea66c7638285adadc257e78d01fc7d.png](https://img-blog.csdnimg.cn/img_convert/7cea66c7638285adadc257e78d01fc7d.png)
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】平台矩阵,欢迎联系我们!