为什么我认为特斯拉FSD12仍悄悄使用了CNN,而不单单是Transformer?

作者 | NE时代  编辑 | NE时代智能车

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心端到端自动驾驶技术交流群

本文只做学术分享,如有侵权,联系删文

有一件事让我对 CNN/Transformer 的纷争特别感兴趣。

这是一些背景信息:

f86a366763e64fa309334fdb2d9c0cbe.png

Elon Musk和Yann LeCun(卷积神经网络之父)之间的推文交流

为什么“我们现在很少使用CNN”?这是真的吗?真的都是Transformer吗?

在这篇文章中,我将告诉你我认为谁是对的,更重要的是,我要解释为什么Yann LeCun是对的,以及为什么特斯拉仍然会使用CNN......

首先,我的研究基于特斯拉在2021 年和 2022 年的 AI Day以及 CVPR 2023上的演讲及活动内容。

在这些场合上,特斯拉基本都分享了,感知是通过HydraNet(用于车道和物体)和Occupancy Net(用于3D占据格栅和运动估计)完成。

这些模块以端到端的方式与 Deep Planner 连接在一起。

我想回答的问题是......

“它们其中有使用卷积吗?”

01.

HydraNet 是否使用卷积?

以下是 HydraNet 的最新可用架构(提醒一下,HydraNet 拥有一个主干,多个头,每个头能够解决一项任务):

3f81e40dabd5ca7c4a5f50d4981d8501.jpeg

HydraNet 架构由 3 个部分组成:特征提取、融合和预测

您可以注意到 3 个关键部分:

蓝色,使用 RegNet 进行特征提取

绿色,基于 Transformer 的融合

红色,进行预测的头(物体、车道......)

当然,现在大部分都是基于 Transformer 的......

除了一部分:

RegNet & FPNs!

02.

RegNets内部

RegNet(RNN-Regulated Residual Networks)是进行特征提取的算法。我们可从RegNet: Self-RegulatedNetwork for Image Classification论文得知,这是一个特斯拉大量使用的基于ConvRNN的特征提取器。

94e5a2539410c4a2962e0538f05be324.png

ResNet vs RegNet(特斯拉使用右侧的 RegNet)(来源RegNet: Self-RegulatedNetwork for Image Classification)

因此,正如你所看到的,这是一种效果更佳的特征提取方法(至少输出看起来更不错)。并且这是通过使用 ConvRNN 来实现的。这是它的要点:

一、我们从 ResNet 设计开始,这是一个很好的特征提取器。注意到的“构建块”是一组 Conv+BatchNorm+ReLU。

970be15f1887f91d4790ecfa6d25286d.png

二、在每个输出中,我们通过 RNN进行传递。这是 ConvLSTM 架构,将递归神经网络放入 CNN 中。这有助于解决时间依赖性。

45bdf6a27c136765ac5a1c3952f79f8b.png

ConvLSTM(来源:Convolutional LSTM Network: A Machine LearningApproach for Precipitation Nowcasting)

三、我们将输出传递到下一阶段,并重复数十层。最后,我们将提取的所有特征进行全局池化,并将其传递给 Transformers。

d531ccf7f34991a36d98ea8b307731e8.png

ConvRNN 架构。在每次卷积之后,我们将其传递给 RNN,然后 RNN 再将其传递给下一层

这就是特斯拉使用的:一个RegNet,其次是特征金字塔网络的FPN。

5882b936588c366877373ead635d91be.png

特征金字塔网络利用多个尺度的信息(来源:Feature Pyramid Networks for Object Detection)

所以我们知道 HydraNet 使用 CNN。接下来看看占据网络。

03.

占用网络

03947c9003e3ae5c33a2e490b6c202e0.jpeg

占用网络也使用 RegNet 和 FPN。在本例中,FPN 是双线性 FPN,这意味着它可能用于上采样而不是下采样。

因此,我认为,根据他自己的演讲,Elon Musk是......

错的!

现在,你要问我:

“Jeremy,你怎么知道他们没有用Transformer替换RegNet?”

我认为这不太可能,我会在本文的第二部分告诉你为什么......

04.

为什么特斯拉仍然使用CNN?

为了回答这个问题,我们有 2 个关键问题:

为什么 CNN 在特征提取方面优于 Transformer?

为什么特斯拉选择在Transformers之前使用CNN,而不是直接使用Transformer?

问题一、为什么 CNN 在特征提取方面优于 Transformer?

首先,CNN是为特征提取而构建的。

它实际上是为了取代手动特征提取器而构建的,例如定向梯度的直方图。而 Transformer 并不是为此而构建的,它们是为了发现图像中的“注意力点”,并捕获时间依赖性而构建的。

因此,如果你想使用特征提取,最好使用特征提取器,即CNN。相比Transformer,CNN更快。

打个比方,如果你必须切一块牛排,你更愿意使用像 CNN 这样的肉刀,还是像Transformer这样的瑞士军刀?

现在是第二个问题:

为什么特斯拉不直接使用Transformer?

嗯,这可能是基于他们自己的研究和试验/错误......

但这样做也很有意义:

1、CNN/特征提取和

2、Transformer/融合

80d3aaf03aff0344c135c026b4eb2685.png

我们可以在Transformer之前使用 CNN!

因为CNN允许降低维度,允许捕捉不同模式,允许发现局部和全局特征......

所以基本上,CNN的存在是为了让Transformer的工作更轻松、更快捷。它们不是处理图像,而是处理特征。Transformer在这里不是作为CNN的替代品,而是作为LSTM和RNN的替代品。

“这里有特征,找到注意力点!”

你要处理的会少得多。

总而言之,我们想使用 CNN 进行特征提取,使用 Transformer 进行空间融合(所有特斯拉摄像头)、注意力和时间处理(t-1、t-2 等)

05

总结

如果我们坚持 CVPR 2023的观点,Yann LeCun 是对的,像特斯拉这样的公司仍然需要使用 CNN。Transformer 很慢,而且它们还没有为特征提取而构建。

特斯拉有一个端到端的架构,使用HydraNet、Occupancy Network和Deep Planner。

HydraNet 使用一个名为 RegNet 的基于 ConvRNN 的特征提取器,该提取器使用 RNN 进行“自我调节”并获得更好的输出。在此之后,它还使用 FPN。

占用网络使用与HydraNet完全相同的特征提取技术,但使用双线性 FPN。

最后,我们意识到 CNN 和 Transformer 可相互配合,而非互相取代。CNN 是一个完美的特征提取器,但在时间依赖性和融合方面表现不佳。

Transformer 是一种多功能工具,是一把瑞士刀,可以完美地处理时间问题,但在特征提取方面不如 CNN。

备注:原文来自Think Autonomous

-END-

自动驾驶之心知识星球』欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

bedef3ae811d5f8f3c795bafe1eb5950.jpeg

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

c1c8420261e1c769d2784b03877add28.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

0a236b55115cbe2a9fa6de27b75f0b0e.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

a08a6f1d46664befd0e2cb6a4bfd8fa4.jpeg

④【自动驾驶之心】全平台矩阵

39a5a18fed0a3cf8822c7b5067289d9f.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值