导读:Elon Musk说过,“人类不是超人,也不是蝙蝠侠,不能够眼放激光,也不装有雷达,但是通过眼睛捕捉到的图像,人类依旧可以构建出对周围世界的3D空间理解能力,从而很好地掌握驾驶这项能力。”想要真正实现自动驾驶,让汽车具备像人类司机一样的感知能力最为关键。
在去年的特斯拉 AI Day上,Karparthy展示了基于Transformer的BEV(Bird's eye view,鸟瞰图)网络结构,该方法使用纯视觉输入进行自动驾驶感知任务,效果十分惊艳。
与此同时,学术界也有许多相关工作旨在利用纯视觉输入来完成自动驾驶感知任务,例如3D目标检测或者构建语义地图。这当中,BEVFormer的主要贡献在于使用Transformer在BEV空间下进行时空信息融合。
7 月 14 日,前商汤科技研究院执行研究总监、即将入职清华大学电子系的代季峰博士在青源 Talk 第 21 期中分享了题为「BEVFormer:新一代自动驾驶环视感知算法」的报告。之后旷视研究院基础模型组负责人,青源会会员张祥雨与代季峰就BEVFormer的优势等问题进行了对话。(点击文末「阅读原文」查看视频回放)
代季峰博士,前商汤科技研究院执行研究总监,智源青年科学家,在清华大学自动化系于2009年和2014年分别获得学士和博士学位。2012年至2013年间,他在加州大学洛杉矶分校访学。2014年至2019年间,他在微软亚洲研究院(MSRA)视觉组工作,曾担任首席研究员、研究经理。2019年至2022年,他在商汤科技研究院工作,担任基础视觉、通用智能两个二级部门负责人,执行研究总监。他的研究兴趣为计算机视觉中的通用物体识别算法和跨模态通用感知算法。他在领域顶级会议和期刊上发表了30多篇论文,根据谷歌学术统计获得了20000多次引用。他的一些工作,如区域全卷积网络R-FCN、可变形卷积网络Deformable ConvNets,被编入顶尖大学计算机视觉课程的讲义中。
整理:熊宇轩
编辑:李梦佳
首先,代季峰博士以特斯拉为例回顾了自动驾驶感知算法的发展历程,说明了基于 BEV 的感知算法相较于基于图像视图感知算法的优势,并重点介绍了其团队研发的 BEVFormer 模型。该模型融合了时空信息、采用了稀疏注意力机制,能够更高效、更准确地完成下游的分割、检测等任务。
随着汽车智能化的发展,汽车上装备的传感器的数量和种类越来越多。2014 年,特斯拉 Hardware 1.0 平台只包含一个前向摄像头。如今,蔚来 ET7、ET5 等国产新势力电动车包含数十个传感器,包括摄像头、LiDAR、RaDAR 等传感器。此时,我们需要充分这些硬件的潜力,使各种传感器优势互补,更好地融合来自多源传感器的数据。
目前,基于图像视图的方案使用不同的网络对图像、点云等数据完成感知子任务。就图像而言,网络针对每张图像单独提取特征,将 2D 特征转化到 3D 空间中,再得到物体的