自动驾驶登上Nature!利用事件相机实现低延迟自驾视觉感知

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【自动驾驶和目标检测】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

1e1ca8b417069f4f4a7f1f04c7364f10.jpeg

转载自:智驾机器人技术前线

论文信息

标题:Low-latency automotive vision with event cameras

作者:Gehrig, D., Scaramuzza, D.

项目地址:https://github.com/uzh-rpg/dagr

论文:https://www.nature.com/articles/s41586-024-07409-w

导 读

    目前在先进的驾驶辅助系统中使用的计算机视觉算法依赖于基于图像的RGB相机,这导致了一个关键的问题,即:带宽-延迟权衡。为了解决这个问题,事件相机作为替代视觉传感器应运而生。事件相机异步测量强度变化,提供了高时间分辨率和稀疏性,显著降低了带宽和延迟需求。尽管有这些优势,基于事件相机的算法要么效率很高但在准确性方面落后于基于图像的算法,要么为了取得可比的结果而牺牲了事件的稀疏性和效率。为了克服这一点,本文提出了一种混合事件和基于帧的对象检测器,它保留了每种模式的优势,因此不受这种权衡的影响。该方法利用事件的高时间分辨率和稀疏性以及标准图像中丰富但时间分辨率低的信息来生成高效的、高频率的对象检测,从而减少了感知和计算延迟。本文展示了使用每秒20帧(fps)的RGB相机加上事件相机可以达到与每秒5000帧相机相同的延迟,并且带宽与每秒45帧相机相当,同时不损失准确性。该方法通过挖掘事件相机的潜力。为边缘情况场景中实现高效和强大的感知铺平了道路。

    基于帧的传感器,如RGB相机,面临带宽-延迟权衡:更高的帧率减少了感知延迟但增加了带宽需求,而更低的帧率节省了带宽,但代价是增加了感知延迟,从而错过了重要的场景动态。感知延迟测量的是视觉刺激开始到其在传感器上读出之间的时间。这种权衡在汽车安全中尤为显著,其中反应时间非常重要。先进的驾驶辅助系统以每秒30-45帧(fps)的速度进行记录,导致盲区时间为22-33毫秒。这些盲区时间在高速场景中可能至关重要,例如检测快速移动的行人或车辆或丢失的货物。此外,当存在高度不确定性时,例如交通参与者部分被遮挡或由于不利的天气条件而照明不足,这些帧率人为地将决策时间延长了0.1-0.5秒。在这段时间内,突然出现的行人以12公里/小时的速度会移动0.3-1.7米,而以50公里/小时行驶的汽车将行驶1.4-6.9米。减少这种盲区时间对安全至关重要。为了解决这个问题,行业正在向更高帧率传感器发展,大幅增加了数据量。当前的无人驾驶汽车每小时收集高达11太字节的数据,预计这个数字将上升到40太字节。尽管云计算提供了一些解决方案,但它引入了高网络延迟。一个有希望的替代方案是事件相机,它们捕捉每个像素的强度变化,而不是固定间隔的帧。它们提供了低运动模糊、高动态范围、时空稀疏性和微秒级分辨率,同时降低了带宽和功耗。它们适应场景动态,提供了低延迟和低带宽的优势。然而,基于事件的方法的准确性目前受到传感器无法捕捉缓慢变化的信号和处理方法将事件转换为类似帧的表示以供卷积神经网络(CNN)分析的效率低下的限制。这导致冗余计算、更高的功耗和更高的计算延迟。计算延迟是指从读出测量值到产生输出的时间。本文提出了一种新的混合事件和基于帧的对象检测器,结合了用于图像的标准CNN和用于事件的高效异步图神经网络(GNN)。GNN以递归方式处理事件,这最小化了冗余计算,并利用了关键的架构创新,如专门的卷积层、针对性的事件跳过和专门的有向事件图结构来提高计算效率。本文方法利用了事件和基于帧的传感器的优势,利用图像中的丰富上下文信息和来自事件的稀疏且高频率的事件信息,实现了高频率的对象检测,减少了感知延迟。在汽车环境中,它覆盖了基于图像的传感器的盲区间隔,同时保持了低带宽。这样做,它提供了额外的可认证的现实快照,显示在下一个图像中变得可见之前的对象或捕获编码交通参与者意图或轨迹的对象移动。

系统概述

    本文的系统称之为深度异步GNN(DAGr),如图所示。它将用于图像处理的CNN与用于事件处理的异步GNN相结合。这些处理步骤导致具有高时间分辨率和低延迟的对象检测。接下来将讨论事件和图像是如何结合在一起的。每次图像到达时,CNN都会对其进行处理,并以单向方式与异步GNN共享特征,即CNN特征与GNN共享,但反之亦然。因此,GNN利用图像特征来提高其性能,尤其是当只有少数事件被触发时,这在静态或慢动作场景中很常见。异步GNN根据参考文献32启发的高效CUDA实现,从事件中构建时空图,并通过卷积和池化层序列将该图与从图像中获得的特征(通过跳过连接)一起处理。为了促进深度和高效的网络训练,使用图残差层。此外,设计了一个专门的体素网格最大池化层,它减少了早期层中的节点数量,从而限制了较低层中的计算。本文镜像了YOLOX的检测头和训练策略,尽管用图卷积层取代了标准卷积层。最后,设计了样条卷积层的有效变体作为核心构建块。与参考文献35中的原始层相比,该层预先计算查找表,从而节省计算。为了提高效率,遵循参考文献中提出的步骤。将GNN转换为异步模型。首先使用参考文献34中的训练策略在一批事件和图像上训练网络,然后通过制定递归更新规则将训练的模型转换为异步模型。特别地,给定图像和直到下一帧(50ms后)的事件E,训练模型以检测下一帧中的对象。异步模型具有与训练模型相同的权重,但使用递归更新规则来单独处理事件并产生相同的输出。在每一层,它都会保留其先前图形结构和激活的内存,并针对每个新事件进行更新。如参考文献所示,这些更新是高度本地化的,因此大大减少了整体计算。

    为了通过这种方法最大限度地节省计算量,采用了三种主要策略。首先,将每一层中的计算限制为在其特征或节点位置发生变化的节点之间发送的单个消息,然后将这些变化中继到下一层。其次,修剪非信息更新,这停止了更新到较低层的中继。此修剪步骤发生在网络早期执行的最大池操作中,从而最大化修剪的潜力。最后,使用有向和无向事件图。有向事件图仅在节点在时间上有序的情况下连接节点,这抑制了更新传播并导致进一步的效率提高。在方法中报告了本文方法的每个组成部分的消融研究。本文的系统与最先进的基于事件和帧的对象检测器在效率和准确性方面进行的比较。首先,我们展示了异步GNN在单独处理事件时的性能,然后用图像和事件显示结果。然后,比较了本文的方法在连续帧之间的盲时间内检测对象的能力。比较发现,本文的方法在实现高性能(通过使用图像超过基于图像和基于事件的检测器)和保持高效之间取得了平衡,这比将事件处理为密集帧的现有方法更为有效。

b720644074c6dcb2aea0fd500b5def93.png

e46a2cbe151298bd4a9b167f87fcb9f4.png

实验结果

    这里仅展示部分实验结果,全部实验结果请看论文。

f5b1de440ca8db97a384c62c3a888105.png

248ba8b6b228c8c2e6ad42df7ee628e6.png

80fa5fe0d78a3b116a2009f364a181ba.png

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

自动驾驶和目标检测交流群成立

 
 
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-自动驾驶和目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如自动驾驶或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值