特斯拉AI负责人解释了为什么自动驾驶汽车不需要激光雷达

最新推荐文章于 2024-07-21 16:00:22 发布

人工智能数据服务商

最新推荐文章于 2024-07-21 16:00:22 发布

阅读量314

点赞数

文章标签：神经网络人工智能大数据计算机视觉深度学习

本文链接：https://blog.csdn.net/SurfingTech/article/details/118361136

版权

本文来自 Ben Dickson

创建一个完全自动驾驶车辆所需要的技术堆栈是什么？公司和研究人员在这个问题的答案上是存在分歧的。自动驾驶的方法范围从仅需摄像机和计算机视觉到计算机视觉和先进传感器的结合。

特斯拉一直是以纯视觉为基础的自动驾驶方法的拥护者，在2021年的CVPR上，其首席人工智能科学家Andrej Karpathy解释了原因。

在CVPR 2021自动驾驶研讨会上，过去几年一直领导特斯拉自动驾驶工作的卡帕西详细介绍了该公司如何开发深度学习系统，该系统只需要视频输入就可以理解汽车周围的环境。他还解释了为什么特斯拉处于使基于视觉的自动驾驶汽车成为现实的最佳位置。

一种通用的计算机视觉系统

深度神经网络是自驱动技术堆栈的主要组成部分之一。神经网络分析道路、标志、汽车、障碍物和人的车载摄像头馈源。

但是深度学习在检测图像中的对象时也会犯错误，这就是为什么大多数自动驾驶汽车公司，包括字Alphabet 的子公司Waymo，都使用激光雷达，通过向四面八方发射激光来创建汽车周围的三维D地图。激光雷达提供了额外的信息，可以填补神经网络的空白。

然而，在自动驾驶中使用激光雷达也有其复杂性。 Karpathy说：“你必须用激光雷达预先绘制环境地图，然后必须创建一张高清地图，插入所有的车道、连接方式和所有的交通灯。”“在测试时，你只需定位到地图。”

要创建一个关于自动驾驶汽车将要行驶的每个位置的精确地图是极其困难的。Karpathy说：“收集、构建和维护这些高清激光雷达地图是不可扩展的，要保持这个基础设施的最新情况将会非常困难。”

特斯拉在其自动驾驶堆栈中不使用激光雷达和高清地图。Karpathy说：“所有发生的一切，都是第一次发生在车内置的摄像中。”

自动驾驶技术必须弄清楚车道在哪里、红绿灯在哪里、自身状态，以及哪些车道与车辆相关，车辆必须做所有这些都没有任何预定义的信息。

Karpathy承认，基于视觉的自动驾驶在技术上更加困难，因为它需要神经网络只基于视频源就功能良好。“一旦它开始工作，就变成一个通用的视觉系统，主要可以部署在地球上的任何地方。”

有了通用的视觉系统，将不再需要任何其他相应的装置在汽车上。Karpathy称特斯拉已经朝着这个方向前进了。此前，特斯拉结合了雷达和相摄像机进行自动驾驶，但它最近开始放弃使用激光雷达。

Karpathy说：“我们放弃了激光雷达，原因是特斯拉的深度学习系统已经达到比雷达好一百倍”。

监督性学习

反对纯计算机视觉方法的主要争论是，神经网络是否可以在没有激光雷达深度图的帮助下进行范围查找和深度估计存在不确定性。

Karpathy说：“人类以视觉驱动，所以我们的神经网络能够处理视觉输入来了解我们周围物体的深度和速度。但最大的问题是，合成神经网络也能这样做。”

特斯拉的工程师希望创建一个深度学习系统，可以通过深度、速度和加速度进行物体检测。他们决定将挑战视为一个监督学习问题，在神经网络中，神经网络在注释数据训练后学习检测对象及其相关属性。

为了训练深度学习架构，特斯拉团队需要一个包含数百万个视频的大量数据集，并仔细地注释了它们所包含的对象及其属性。为自动驾驶汽车创建数据集特别棘手，工程师们必须确保包括一套不经常发生的不同的道路设置和边缘案例。

Karpathy说：“当你有一个大型、干净、多样化的数据集，并且正在训练一个大型的神经网络时，我在实践中看到的是……成功是有保证的。”

自动标注数据集

由于在全球销售了数百万辆配备摄像头的汽车，特斯拉能够收集训练汽车视觉深度学习模型所需的数据。目前特斯拉自动驾驶团队积累了1.5兆比特的数据，包括100万10秒的视频和60亿个标注有边界框、深度和速度的物体。

但是标记这样的数据集是一个巨大的挑战：一种方法是通过数据标注公司或Amazon Turk等在线平台对其进行手动注释。这将需要大量的劳动力，会花费一大笔钱，并且非常缓慢。

相反，特斯拉团队使用了一种自动标记技术，其中包括神经网络、雷达数据和人类评论的组合。由于数据集正在进行离线注释，神经网络可以重新运行视频，将它们的预测与地面真相进行比较，并调整它们的参数。这与测试时推理形成了鲜明的对比，在测试时推理中，一切都是实时发生的，而深度学习模型无法求助。

离线标注还使工程师能够应用非常强大和计算密集型的目标检测网络，但这些网络不能部署在汽车上，也不能在实时、低延迟的应用程序中使用。利用雷达传感器数据进一步验证了神经网络的推论，所有这些都提高了标注网络的精度。

Karpathy说：“离线标注可以更好地融合不同的传感器数据。此外还可以让人们参与进来，他们也可以进行清理、验证、编辑等等。”

根据Karpathy在CVPR上公布的视频，物体检测网络时，通过碎片、灰尘和雪云保持一致。

特斯拉的神经网络可以在各种可见性条件下始终一致地检测物体。

Karpathy没有说明对自动标注系统做出最终的修改需要多少人的努力，但人类认知在引导自动标注系统的正确方向上发挥着关键作用。

在开发数据集时，特斯拉团队发现了200多个触发器，表明对象检测需要调整。这些问题包括不同摄像头的检测结果或相机和雷达之间的不一致。他们还确定了可能需要特别照顾的场景，如隧道进出出口以及顶部有物体的汽车。

特斯拉花了四个月的时间来发展和掌握所有这些触发器。随着标注网络的改善，它被部署在“阴影模式”下，这意味着触发器被安装在消费品上，悄无声息地运行，而不对汽车发出命令。将网络的输出与传统网络、雷达和驾驶员的行为进行比较。

特斯拉团队进行了七次数据工程的迭代。他们从一个初始数据集开始训练神经网络。然后，在真实的汽车上部署了阴影模式下的深度学习，并使用触发器来检测不一致、错误和特殊场景。然后对错误进行修订、纠正，将新数据添加到数据集中。

“我们一遍又一遍地运行这个循环”Karpathy说。

因此，该架构可以更好地描述为一个具有巧妙分工的半自动标注系统，其中神经网络做重复的工作，人类处理高水平的认知问题和角落情况。

当一名参会者问Karpathy是否可以自动进行触发器的生成时，他回答：“自动进行触发器的生成是一个非常棘手的场景，因为一般的触发器不能正确地表现出错误模式。”

层次化的深度学习体系结构

特斯拉的自动驾驶团队需要一个非常高效和设计良好的神经网络来充分利用他们收集到的高质量数据集。该公司创建了一个由不同神经网络组成的层次深度学习架构来处理信息，并将其输出提供给下一组网络。

深度学习模型使用卷积神经网络从安装在汽车周围的八个摄像头的视频中提取，并使用变压器网络将它们融合在一起。

空间特征被输入到神经网络的分支结构，Karpathy将其描述为头部、主干和终端。

Karpathy说：“你想要这种分支结构是因为对大量的输出很感兴趣，而且不是每一个输出都有一个单一的神经网络。”

层次结构允许为不同的任务重用组件，并启用不同推理路径之间的特征共享。

该网络的模块化架构的另一个好处是有分布式开发的可能性。特斯拉目前正在雇佣一个大型的机器学习工程师团队来训练自驾驶神经网络。每个工程师都在网络的一个小组件上工作，并将结果插入到更大的网络中。

“我们有一个大约20人的团队在全职训练神经网络。他们都在一个单一的神经网络上合作。

垂直集成

在CVPR演讲中，Karpathy分享了一些关于特斯拉用来训练和调整其深度学习模型的超级计算机的细节。

计算集群由80个节点组成，每个节点包含8个NvidiaA100GPU和80千兆字节的视频内存，总计5760GPU和超过450千兆字节的VRAM。这台超级计算机还拥有10兆兆的NVME超快存储和640tbps的网络容量，可以连接所有节点，并允许对神经网络进行高效的分布式训练。

特斯拉还拥有并制造了安装在其汽车内部的人工智能芯片。“这些芯片是专门为我们想要运行的神经网络而设计的，”Karpathy说。

特斯拉的最大优势是其垂直整合，拥有整个自动驾驶的汽车堆栈。它处于一个独特的位置，即收集广泛的视频数据。它还在其专有数据集、其特殊的内部计算集群上创建和训练其神经网络，并通过对其汽车的阴影测试来验证和确定该网络。

“你可以共同设计和设计这堆栈的所有层，”Karpathy说。“没有任何第三方能阻止，完全由自己掌控。”

这种创建数据、调整机器学习模型的垂直集成和重复循环，使特斯拉处于一个独特的位置来实现仅靠视觉的自动驾驶汽车能力。在演讲中，Karpathy展示了几个例子，仅新的神经网络就超过了结合雷达信息工作的传统ML模型。

如果像Karpathy所说，这个系统继续改进，特斯拉可能会让骗子过时。我不认为任何其他公司能够重现特斯拉的方法。

解决问题

但问题仍然是，目前的深度学习是否足以克服自动驾驶的所有挑战。当然，物体检测和速度和距离估计在驾驶中起着很重要的作用。但人类视觉也具有许多其他复杂的功能，科学家们称之为视觉中的“暗物质”。这些都是对不同环境的视觉输入和导航的意识和潜意识分析的重要组成部分。

深度学习模型也很难做出因果推理，当这些模型面临着以前从未见过的新情况时，这可能是一个巨大的障碍。因此，虽然特斯拉成功地创建了一个非常巨大和多样化的数据集，但开放的道路也是非常复杂的环境，新的和不可预测的事情可以一直发生。

人工智能社区的分歧是是需要明确地将因果关系和推理明确地整合到深度神经网络中，还是可以通过“直接拟合”克服因果关系障碍，一个大且分布良好的数据集将足以达到通用的深度学习。特斯拉基于视觉的自动驾驶团队似乎支持后者（尽管考虑到他们对堆栈的完全控制，他们将来总是可以尝试新的神经网络架构）。这项技术与时间的考验相比，这将是很有趣的。

人工智能数据服务商

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
特斯拉AI负责人解释了为什么自动驾驶汽车不需要激光雷达

本文来自Ben Dickson创建一个完全自动驾驶车辆所需要的技术堆栈是什么？公司和研究人员在这个问题的答案上是存在分歧的。自动驾驶的方法范围从仅需摄像机和计算机视觉到计算机视觉和先进传感器的结合。特斯拉一直是以纯视觉为基础的自动驾驶方法的拥护者，在2021年的CVPR上，其首席人工智能科学家Andrej Karpathy解释了原因。在CVPR 2021自动驾驶研讨会上，过去几年一直领导特斯拉自动驾驶工作的卡帕西详细介绍了该公司如何开发深度学习系统，该系统只需要视频输入就可以理解汽车周围的...
复制链接

扫一扫