![003e01f702710967d3513e61477ebf6c.png](https://img-blog.csdnimg.cn/img_convert/003e01f702710967d3513e61477ebf6c.png)
与崔博的交集一二
时间线:
2019 Nvidia GTC峰会--自动驾驶专场,崔博的演讲结束后,线下同事反馈口碑一致好。
后来去年我司在某港区智能集卡上线,大吹特吹了一波,也吹了一波图森,没有吹智加,
诸葛有鱼:大话无人驾驶摇滚重卡zhuanlan.zhihu.com![6e0a31926fa4f6a781108ee3e79a41f9.png](https://img-blog.csdnimg.cn/img_convert/6e0a31926fa4f6a781108ee3e79a41f9.png)
文章标题还借鉴了崔博的“无人驾驶摇滚重卡”,只为凸显智能重卡的逼格。惊喜崔博留言,要给智加打广告,当时还向崔博索要GTC的ppt,这次交作业了。 @崔迪潇
![62136be5cf96ec1dc19fb6858b828fbd.png](https://img-blog.csdnimg.cn/img_convert/62136be5cf96ec1dc19fb6858b828fbd.png)
最近吐槽一些演讲强于营销,弱于内容。这次终于听到崔博演讲充满干货的演讲,剩下内容也主要是复盘崔博的演讲内容,对于自动驾驶系统架构、顶层设计的理解,和实际自动驾驶落地过程中遇到的问题进行剖析,主要挑重点的内容进行复盘。
打磨安全的干线物流自动驾驶
1. 当前干线物流自动驾驶的现状和机遇;
2. 智加推进落地的5个认知;
3. 干线物流自动驾驶技术的挑战;
4. 跨越L2+到L4技术的数据闭环
1. 当前干线物流自动驾驶的现状和机遇
卡车司机人力不足、就业缺口,
长途驾驶安全
美国200万辆(人力+油耗占比70%),中国600万辆(人力+油耗占比50%)
2. 智加推进落地的5个认知
(1)原型期:L4、demo、寻找合作伙伴
(2)工程验证期:技术可能性,设计系统、验证系统,闭环,仿真,路测验证等(硬件合作方Nvidia,自研全栈算法)
(3)设计验证期:工程车向量产车的过渡期,融合设计
(4)生产验证期:流水线准备、供应链准备(主机厂一汽解放)
(5)规模化量产:场景方(满帮集团)
![92b054e13482c381491e9be62b58d441.png](https://img-blog.csdnimg.cn/img_convert/92b054e13482c381491e9be62b58d441.png)
3. 干线物流自动驾驶技术的挑战;
相比乘用车:卡车盲区大,制动距离长,湿滑路面更是可以达到 300米的制动距离;卡车带挂属于非刚性,控制难度大。
![8950809335368e8008eec6d0952ea63f.png](https://img-blog.csdnimg.cn/img_convert/8950809335368e8008eec6d0952ea63f.png)
全栈研发能力:
标定:多传感器同步和内外参标定;
感知:视觉、激光雷达、毫米波雷达的融合
高精度地图/定位:视觉、激光雷达、GPSIMU
预测/规划/控制
系统冗余设计/架构设计
(1)标定:多传感器同步和内外参标定;
标定很重要,标定很重要,标定很重要!!!
标定精度好坏,其产生的误差会由感知层逐步传递到规划与控制,逐级放大,最后的效果会大打折扣。
离线的静态标定:
基于标记物的方式(target-based),标记物的几何结构和材质应充分考虑相机对纹理和角点的观测精度;激光对深度不连续背景的观测精度,雷达对金属的强反射特性。目的是实现同一标记物能够被不同传感器都能观测到。(棋盘格、圆形标记物)
两种标定方法:
3d点积配准、立体视觉(智加亮点)
2d-3d对应关系,pnp方法;
在线的动态标定:
车身悬挂抖动明显,不同传感器(相机与相机、相机与雷达)的相对位置会发生变化;相对于大地坐标系的位置会发生变化;
解决方式:双目立体视觉的极线校正;激光中的深度不连续位置;SGM稠密视差误差估计
离线标定是关键,提供准确的初始值,在线标定是矫正。
(2)感知
要做到无盲区,覆盖超远距离的感知,能够应对路面起伏都是感知所要解决的;
现在感知方案一般都是配置多个摄像头,毫米波雷达,激光雷达;
这次演讲最有感觉的就是这个双目视觉(Stereo Vision)。
两年后再次听到双目视觉,听到弱纹理,听到极线这些名词的时候,简直就是一股暖流,双目视觉,智加没有抛弃。
单目最让人诟病的是缺乏深度信息,虽然现在也能实现单目测距,但目前看下来,要达到高精度以及稳定的测距(除了Mobileye),单目视觉还有很长的路要走。
双目视觉,传统视觉几何,我要搬出我研究生毕业论文了。
![e041e25e6aa5d7d51828deefc2065383.png](https://img-blog.csdnimg.cn/img_convert/e041e25e6aa5d7d51828deefc2065383.png)
双目视觉系统主要是由三大步骤组成,
第一步骤是图像标定,其目的是得到两个相机的内外部参数,对图像进行校正;
第二步是图像匹配,其目的是找到左右图对应点,计算得到视差图(难度最大);
最后一步是环境重建,利用视差图计算每一个点的深度信息,从而对立体环境进行重建。
![585176403226501388d9b49564407cb3.png](https://img-blog.csdnimg.cn/img_convert/585176403226501388d9b49564407cb3.png)
当年答辩PPT上,第一个Alberto Broggi是崔博的导师。
然而现在仍是单目视觉盛行的年代,优势明显,基于深度学习的单目技术在感知优势巨大,易上手、落地。
多极线的双目视觉相比单目视觉优势在于:
- 更准确的深度估计;
- 互为冗余:极线的交叉验证、比较;利于在线标定;
- 易于与激光雷达融合:结构信息更丰富。
既然双目视觉这么多好处,为什么大家都不做呢?个人认为双目视觉最大的难点在于两个相机的立体匹配算法。
两年前双目立体视觉匹配算法远远不如基于深度学习的单目视觉好用,后者就是简单,粗暴检测效果好,能快速demo(yolo, ssd); 而前者更多的是传统的立体匹配算法,全局匹配算法精度高,速度慢;局部立体匹配算法速度快,精度一般;那会基于深度学习的立体匹配还未成型,研究者少,双目的大极线配准,立体匹配中的弱纹理、视差不连续以及反光表面问题,都是难点。
![2d999b99e0b1db8317c88274fc36685d.png](https://img-blog.csdnimg.cn/img_convert/2d999b99e0b1db8317c88274fc36685d.png)
所以相比于单目视觉的快速落地,极佳的效果,采用双目立体视觉方案显得耗时耗力,难度也更大,在工业界不被看好,另外被诟病的单目测距问题,也可以通过其它传感器去弥补冗余。
智加采用双目视觉,一定程度上反映了其已经解决了上述双目视觉的难点问题。
回归到感知所要处理的典型问题,
卡车主要是应付干线物流场景,所以车道线以及障碍物检测(车辆)是卡车感知的重点。
车道线这里需要重点区分一下图像域(二维空间)、真实的世界三维坐标域的差别。一般平常所做的工作,车道线的检测评价都是在二维空间做的,比如输入一个离线视频,加载神经网络模型后,输出的车道线信息与真实的车道线拟合的效果一致就可以了。但真实情况是这只是表观现象,其图像在二维空间的输出结果是缺少三维信息,所以就会存在这样的一个情况,在二维图像车道线的检测效果非常好,但实际投影到真实的世界坐标效果误差会很大,呈内八字形或外八字形。
智加解决方案:3维路面估计、相机的动态标定、估计曲面,考虑到上述因素,最后的车道线效果才能与真实车体坐标系保持一致。
障碍物(车辆)的远距离感知,不同极线的多组双目;多尺度缩放;
结果级融合,特征级融合,原始数据层的融合;
(3)建图/定位
3d点云数据和2d图像特征数据的几何度量信息和语义度量信息的生成和优化;
不同时间、不同车辆建图精度的一致性和重复性进行可视化显示;
高速道路的结构化(较为单一,几乎都是车道线)会给建图带来便利。
特殊场景:长距离的隧道场景;
若地图采集车和测试车是同一款车,这种方式耦合了传感器的类型,安装位置,甚至多传感器的标定误差;这个劣势在于未来采图的适配性仅适用于自身车辆,不适用于大规模运用。
智加采用乘用车采集地图,卡车验证。
(4)预测/规划/控制
匝道汇入、避让、超车、换道等行为决策问题
载重变化大,非刚体,
横向控制:LQR
模型参考执行控制;
(5)系统冗余设计/架构设计(可靠/冗余)
- 可靠的硬件平台
功耗、车规、camera图像质量
- 传感器的冗余
硬件备份、同一类型的互校验,相机的传输延时、软失效等
- 功能算法的冗余
交叉验证,去除某些传感器后看系统是否仍能正常功能;(双目的好处,一路失效可以降级为单目)
- 系统架构设计
抽象的传感器+抽象的执行器=传感器+执行器+诊断模块+隔离模块
两套系统,L4 Driving Agent (端到端的自动驾驶系统)+ Safe Landing System(靠边停靠的精简系统)
指令集不同、操作系统不同、软件工具链不同、开发团队不同;
- 测试与验证
长尾效应,极端场景的测试;
数据的采集、筛选、使用;反哺模型的提升和迭代;
数据标注的标准,数据的分布,场景的多分类体系(天气、光照、道路场景、交通流);
客观评测检测模块和追踪模块;
验证追踪模块好坏以检测的真值输入即可,增加噪声,模拟车道线的误检,丢帧等;目的是验证追踪模块的性能边界以及对感知端的需求;
4. 跨越L2+到L4技术的数据闭环
L2+代表 Tesla
L4代表 Waymo RobotTaxi
![ce530d18b80f7f23ba349f6eef8f4aa9.png](https://img-blog.csdnimg.cn/img_convert/ce530d18b80f7f23ba349f6eef8f4aa9.png)
![cd9d61dddce9ac45b2baa5c8e716e80c.png](https://img-blog.csdnimg.cn/img_convert/cd9d61dddce9ac45b2baa5c8e716e80c.png)
数据的价值
激光雷达-立体视觉的深度估计
稀疏性 视觉弱纹理区域
数据的效率/成本
人工标注->离线自动化标注->在线自动化标注
到后期算法成熟的情况下,对于数据的采集,管理,使用,仿真可能是未来竞争角逐的方向。
总结:
智加科技的亮点:
感知采用少有的双目视觉方案,
数据闭环的提前布局(L2+->L4)
上下游的打通,有硬件的支持和落地场景的支持;
未经授权,请勿转载!
![574eccaec3c70b7857c08c39ef545a40.png](https://img-blog.csdnimg.cn/img_convert/574eccaec3c70b7857c08c39ef545a40.png)