[论文翻译]Learning to Detect Objects with a 1 Megapixel Event Camera

最新推荐文章于 2024-05-26 09:56:56 发布

GDZSSHL

最新推荐文章于 2024-05-26 09:56:56 发布

阅读量569

点赞数 2

文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/GDZSSHL/article/details/128334430

版权

摘要

事件摄像机以高时间精度、低数据率和高动态范围对视觉信息进行编码。由于这些特性，事件摄像机特别适用于具有高级运动、具有挑战性的照明条件和低延迟需要的场景。然而，由于该领域的新颖性，与传统的基于帧的解决方案相⽐，基于事件的系统在许多视觉任务上的性能仍然较低。造成这种性能差距的主要原因是：与帧相机相比，事件传感器的空间分辨率较低；缺乏大规模的训练数据集；缺乏用于基于事件的处理的完善的深度学习架构。在本文中，我们在基于事件的对象检测任务的上下文中解决了所有这些问题。首先，我们公开发布了第一个用于对象检测的高分辨率大规模数据集。该数据集包含基于1兆像素事件相机的、超过14小时的汽车场景中的数据记录，包含2500万个汽车、行⼈和两轮车的高频率标记边界框。其次，我们为基于事件的检测引⼊了⼀种新颖的循环架构，并为训练的更好表现引⼊了时间⼀致性损失。将事件序列紧凑地表⽰到模型内部存储器中的能力对于实现高精度至关重要。我们的模型在很大程度上优于基于事件的前馈架构。此外，我们的方法不需要从事件中重建灰度图像，这表明直接从原始事件进行训练是可能的，比通过中间灰度图像更有效、更准确。在这项⼯作中引⼊的数据集(包含灰度图和事件)上进行实验，结果显示我们的算法与深入调整和研究的基于帧的检测器性能相当。

1 引言

事件相机[1, 2, 3, 4]通过以完全不同的方式表⽰视觉信息，有望实现计算机视觉的范式转变。事件摄像机不是使用以固定帧速率获取的⼀系列静⽌图像对动态视觉场景进行编码，而是以稀疏和异步事件流的形式生成数据。每个事件由一个元组(x,y,p,t) 表示，对应于固定相对量的照度变化，(x, y)、t 为像素位置和时间，极性p∈{0,1} 表⽰照度是增加还是减少。图1显⽰了驾驶场景中事件相机的数据示例。由于相机不依赖全局时钟，但每个像素在检测到照度变化后⽴即独⽴发出事件，因此事件流具有⾮常高的时间分辨率，通常达到微秒级[1]。此外，由于对数像素响应特性，事件摄像机具有很大的动态范围(通常超过120dB )[4]。由于这些特性，事件相机⾮常适合标准帧相机受运动模糊、像素饱和和高延迟影响的应用。

图1：我们的检测器作用于百万像素汽车驾驶检测数据集上的一些样例结果。我们的方法精准地预测了各种各样的、不同场景的、不同速度的物体。这使得我们的算法成为第一个能可靠解决大规模视觉任务的事件相机系统。被检测出的汽车、行人、自行车分别以黄色、蓝色、青色的方框展示。我们工作中所有的图片能够以电子版的方式最好地呈现出来。

尽管事件相机具有卓越的特性，但我们仍处于基于事件视觉的开端，并且它们目前在实际系统中的使用受到限制。这意味着操作和处理事件的算法、数据集和工具稀缺。此外，大多数可用数据集的空间分辨率有限或没有标记，从而减少了可能的应用范围[5,6]。

为了克服这些限制，⼀些工作在从事件流中重建灰度信息[7,8,9,10]。这种方法很有吸引力，因为重建的图像可以输⼊标准的计算机视觉方法，利用40多年的计算机视觉研究成果。特别地，[10]显⽰重建高质量图像所需的所有信息都存在于事件数据中。然而，灰度图像增加了相当大的计算成本。在这项⼯作中，我们展⽰了如何在不需要灰度监督的情况下构建准确的基于事件的视觉流水线。

我们针对汽车场景中的物体检测问题，其以重要的物体动态和极端光照条件为特点。我们对该领域做出了以下贡献：⾸先，我们获取并发布了第⼀个用于基于事件的⽬标检测的大规模数据集，基于具有高分辨率(1280×720)的事件相机[4]。我们还定义了⼀个全⾃动标记策略，为事件相机生成快速且廉价的数据集。我们发布的数据集包含超过14⼩时的驾驶数据记录，这些数据记录是在各种场景中获取的。我们还提供超过2500万个汽车、行⼈和两轮车的边界框，标记频率为60Hz。

我们的第二个贡献是引⼊了⼀种新的基于事件的对象检测架构以及新的时间⼀致性损失。循环层是我们架构的核⼼构建块，其引⼊了⼀种基本的内存机制，这是达到事件数据高精度的需要。同时，时间⼀致性损失有助于随着时间的推移而获得更精确的定位。图1显⽰了我们的方法在发布的数据集上返回的⼀些检测结果。我们展示出，直接预测对象位置⽐在使用最先进的方法[10]重建的灰度图像上应用检测器更有效和更准确。特别地，由于我们没有施加来⾃灰度图像监督的任何偏差，我们让系统学习给定任务的相关特征，这些特征不⼀定对应于灰度值。

最后，我们在我们的数据集和另⼀个具有灰度图像的数据集上进行了⼴泛的实验，结果显⽰出与标准的、基于帧的检测器有相当的精度，提升了基于事件的检测的最好结果。据我们所知，这是第⼀个在大型视觉任务上表面事件系统的性能与帧系统性能相当的⼯作。

2 相关工作

针对事件相机，已经有一些机器学习框架被提出[11,12,13]。其中⼀些方法，例如Spiking Neural Networks[14,15,16,17]，利用了数据的稀疏性，可以逐个事件应用，以保持事件流的时间分辨率[15,18,19,20]。

然而，将这些方法有效地应用于具有大事件率的输⼊仍然很困难。由于这些原因，它们的功效主要还是在低分辨率分类任务上得到证明。其他方法将事件流映射到稠密表⽰[21,22,23,10]。⼀旦计算出这个表⽰，它就可以用作标准架构的输⼊。即使这些方法失去了⼀些事件的时间分辨率，它们在准确性和可扩展性方⾯仍会有所提高[24,22]。

最近，[10]的作者展⽰了如何使用循环UNet [25]从事件数据中重建高质量的灰度图像。使用这种方法获得的结果显⽰了事件中包含的信息的丰富性。然而，在应用检测算法之前重建灰度图像会增加⼀个计算步骤，这⽐直接使用事件效率低且准确度低，正如我们将在实验中展⽰的那样。

很少有其他⼯作直接关注基于事件的对象检测任务。在[18]中，作者提出了⼀个受YOLO⽹络[26]启发的稀疏卷积⽹络。在[27]中，来⾃事件相机的时间合并二值图像被馈送到fast-RCNN[28]。然⽽，这些方法只在简单的序列(如在静态背景上有移动的物体)上进行了测试。正如我们将看到的，前馈架构在更⼀般的场景中不太准确。

缺乏基于事件的目标检测⼯作也与大型基准数据集的稀缺有关。尽管社区[29, 30, 31, 32]做出了越来越多的努力，但很少有数据集为⽬标检测提供真实数据。 [33]的作者提供了⼀个行⼈检测数据集。但是，它仅由12个30秒的序列组成。模拟[34,35]是另⼀种获得大型数据集的方法。不幸的是，现有的模拟器使用过于简化的硬件模型来准确再现事件摄像机的所有特征。最近[5]发布了⼀个用于检测的汽车数据集。但是，它是使用低分辨率 QVGA 事件相机采集的，并且包含低频标签(≤ 4Hz)。相反，我们认为高空间分辨率和高标记频率对于正确评估汽车检测流水线至关重要。

3 基于事件的目标检测

在本节中，我们首先表述使用事件相机的⽬标检测问题，然后介绍我们的方法和实验中使用的架构。

3.1 问题表述

令E={ei=(xi,yi,pi,ti)}i∈N 为事件的输⼊序列，其中xi∈[0,M] 和yi∈[0,N] 为事件的空间坐标，pi∈{0,1} 为事件的极性，ti∈[0,∞) 为时间戳。我们通过⼀组边界框B=b*=xj,yj,wj,hj,lj,tjj∈N 来表征对象，其中(xj,yj) 是相对边界框左上角的坐标，wj ，hj 为其宽度和高度，lj∈{0, . . . , L} 为标签对象类别，tj 是目标出现在场景中的时间。

一般地，事件检测器由函数D 给出，将E 映射到B=D(E) 。由于我们希望我们的系统能实时⼯作，我们将假设检测器在时间t 的输出将仅取决于过去，即t 之前生成的事件：D(E)=Deiti<tt>=0 ，其中Deiti<t 在时间 t输出边界框。在这项⼯作中，我们要学习D 。

在每个传⼊的事件中应用检测器D 过于昂贵，并且最终的应用通常不需要，因为场景中物体的表观运动通常⽐像素响应时间慢得多。出于这个原因，我们只在大⼩为Δt 的固定时间间隔应用检测器：

其中，tk=kΔt 。然而，⼀个函数D 对每个k 处理所有过去的事件eiti<tk 。在计算上是难以处理的，因为输⼊事件的数量会随着时间⽆限增加。⼀个解决方案是在每⼀步k 中只考虑区间[tk-1, tk) 中的事件，就像在[24,22]中针对其他基于事件的任务所做的那样。但是，正如我们将在第二节中看到的那样，如图5所⽰，这种方法导致⽬标检测结果不佳。这主要是由于两个原因：⾸先，很难选择单个Δt (或固定数量的事件)来处理速度和大⼩⾮常不同的物体，⽐如汽车和行⼈。其次，由于事件仅包含相对变化信息，基于事件的对象检测器必须保留过去的记忆。事实上，当物体的表观运动为零时，它不再产生事件。对于反射、移动阴影或对象变形等边缘情况，使用硬编码规则跟踪对象通常不准确。由于这些原因，我们决定直接从输⼊事件中学习端到端的记忆机制。为了在保持计算成本可控的同时使用过去的事件信息，我们选择D 使得

其中，hk－1 是我们模型在时间tk－1 编码过去信息的内部状态。对于每个k ，我们通过递归公式hk=F(eiti∈[tk－1,tk), hk－1) 定义hk ，其中h0=0 。在接下来的部分中，我们将我们提出要学习的递归神经⽹络架构描述为D 和F 。

3.2 方法

在本节中，我们将描述用于学习检测器D 的循环架构。为了应用我们的模型，我们⾸先对事件进行预处理以构建稠密表⽰。更准确地说，给定输⼊事件eiti∈[tk－1,tk) ，我们计算张量映射Hk∈RC×M×N ，其中C 是通道数。我们在下文使用Hk=H 进行表示。我们的方法不限于特定的H (参⻅第5.1节)。

为了从事件的空间分量中提取相关特征，将H 作为输⼊馈送到卷积神经⽹络[36, 37]。特别是，我们使用Squeeze-and-Excitation层[38]，因为它们在我们的实验中表现更好。此外，我们希望我们的架构包含⼀种记忆状态，以便随着时间的推移积累有意义的特征，并记住对象的存在，即使它们停⽌生成事件。为此，我们使用ConvLSTM层[39]，该层已成功用于从数据[40、41]中提取时空信息。

我们的模型⾸先使用Kf 前馈卷积层来提取高级语义特征，然后将其馈送到剩余的Kr ConvLSTM层(见图2)。这是为了减少由于循环层在大型特征图上运行⽽导致的方法的计算复杂性和内存占用，更重要的是避免循环层对给定任务不需要的低级特征的动态进行建模。我们将⽹络的第⼀部分表示为特征提取器。

图2：我们提出架构的概况。在每个事件步tk ，输入事件被嵌入到一个张量映射Hk 内。前馈卷积层从Hk 中提取底层特征。然后，ConvLSTM提取高层次的时空模式。最后，多尺度的特征从循环层中传递到输出层，从而预测出检测框位置和类别。由于ConvLSTM层的记忆机制，时间信息随着时间被累加和保留，进而允许在即使物体不产生事件的情况下也能进行鲁棒的检测。

特征提取器的输出被馈送到边界框回归头。在这项工作中，我们使用单次检测器(SSD)[37]，因为它能在准确性和计算时间之间取得良好平衡。但是，我们的特征提取器可以与其他系列检测器结合使用，例如两级检测器。由于我们想要为大范围的尺度提取目标，我们将不同分辨率的特征提供给回归头。在实践中，我们使用每个循环层的特征图。图2提供了我们架构的示意图。

与⽬标检测的典型做法⼀样，为了训练我们⽹络的参数，我们优化了⼀个损失函数，该损失函数由框坐标的回归项Lr和类别的分类项Lc组成。我们使用Smooth L1损失[37]Ls 进行回归，使用Softmax Focal Loss[42]进行分类。更准确地说，对于时间tk 的⼀组J 个真实边界框，我们将它们的坐标编码为大小为(J·R,4)的张量B* ，如[37]中所做的那样，其中R 是默认值的数量回归头的框与真实框匹配。设(B,p) 是回归头的输出，B 是对上述R 个默认框的预测进行编码的张量，p 是所有默认框的类概率分布。那么，损失的回归项和分类项为：

其中pl 是正确类别l 的概率。我们将常数γ 设置为2，并且根据[42]的思想调整了softmax logits的不平衡偏差。

3.2.1 双重回归头和时间⼀致性损失

为了获得时间上⼀致的检测，我们希望循环层的内部状态能够学习长期稳定的高级特征。即使ConvLSTM可以在某种程度上学习缓慢变化的表示，我们通过引⼊辅助损失和额外的回归头来进一步提高检测的一致性，这些回归头经过训练可以预测未来一个时间步的边界框。这个想法的灵感来自于无监督学习方法，如word2vec[43]和CPC[44]，它们限制了潜在表示以保留一些域结构。在我们的例⼦中，考虑到两个头部共享特征，我们认为这具有诱导关于物体运动表示的额外效果，可用于正则化上，但需要的进⼀步分析超出目前的工作范围。

给定在时间间隔[tk－1, tk) 中计算的输⼊张量Hk ，两个回归头将分别输出边界框Bk 和Bk+1' ，分别试图匹配ground truth Bk* 和Bk+1* 。这一对偶回归机制如图3(a) 所示。为了训练两个回归头，我们在损失中添加了⼀个回归辅助项，作用于Bk+1' 和Bk+1* 之间。这个辅助项，间接地约束第二个头部的Bk' 的输出与第一个头部的Bk 接近，见图3。然⽽，由于两个头是独⽴的，它们可以收敛到不同的解决。因此，我们通过添加另⼀个损失项来进⼀步规范训练，明确地强制B0 接近Bk 。综上所述，辅助损失为：

然后，我们在训练期间使用的最终损失由L=Lc+Lr+Lt 给出。我们在训练期间使用截断的反向传播通过时间将其最⼩化[45]。

图3：(a)方框回归头部的细节。了能时域上对我们的网络进行正则，我们引入了第二个预测头部，用于在时间tk 预测属于时间tk+1 的方框Bk+1' 。我们迫使网络在相同时间步对应的预测趋于一致。(b)真实标签和预测框之间IoU随时间的变化。这一一致性损失可以有利于网络获取更精准的方框预测。

4 百万像素汽车检测数据集

在本节中，我们描述了⼀种为事件相机⾃动化生成数据集的策略。我们应用这个策略来生成我们实验中使用的检测数据集。然⽽，我们的方法可以很容易地适应其他计算机视觉任务，例如⾯部检测和3D姿势估计。

硬件设置和全⾃动标签策略 获得⾃动标签的关键部分是使用事件摄像机和标准RGB摄像机并排进行记录。标签⾸先从RGB相机中提取，然后通过使用⼏何变换传输到事件相机像素坐标。在我们的⼯作中，我们使用了[4]的1兆像素事件相机和GoPro Hero6。两台摄像机并排固定在⼀个刚性⽀架上，尽可能靠近以尽量减少视差误差。对于这两款相机，我们都使用了大视场：事件相机为110度，RGB相机为120度。RGB 摄像机的视频流以4兆像素和60 fps的速度录制。从设置中获取数据后，我们执行以下标签传输：1. 同步事件和帧摄像机的时间戳；2. 从帧相机图像中提取边界框；3. 将边框坐标从帧相机映射到事件相机。RGB 视频流中的边界框是使用商用汽车检测器获得的，其性能优于免费提供的检测器。该软件返回与行⼈、两轮车和汽车相对应的标签。可以使用摄像机之间的物理连接来完成时间同步。然⽽，由于这并不总是可行的，我们还在补充材料中提出了⼀种同步它们的算法方法。⼀旦2个信号在时间上同步，我们需要找到⼀个⼏何变换，将像素从RGB相机映射到事件相机。由于两个相机之间的距离很⼩，空间配准可以通过单适应变换来近似。时间同步和单适应变换估计都会在标签中引⼊⼀些噪声。尽管如此，我们观察到时间同步误差小于我们使用的离散化时间步Δt ，并且单适应应性假设对于我们的案例来说已经⾜够好了，因为与相机基线相比，汽车场景中遇到的物体相对较远。我们将在5.3节中更深⼊地讨论标记策略的失败案例。更多细节也可以在补充材料中找到。

记录与数据集统计 ⼀旦定义了标记协议，我们就可以轻松地收集和标记大量数据。为此，我们将事件和帧相机安装在汽车挡⻛玻璃后⾯。我们要求司机在各种场景中驾驶，包括城市、高速公路、乡村、⼩村庄和郊区。数据收集进行了⼏个⽉，囊括白天的各种各样的照明和天⽓条件。在录制活动结束时，总共获得了14.65小时的数据。我们将11.19小时用于训练，2.21小时用于验证，2.25小时用于测试。边界框的总数为25M。更多统计数据以及数据集中的示例可以在补充材料中找到。据我们所知，我们提出的基于事件的数据集在标签和类别方⾯是最大的。此外，它是事件摄像机唯⼀可用的高分辨率检测数据集。

5 实验

在本节中，我们⾸先在消融实验中评估我们方法各主要组成部分的重要性。然后，我们将其与最先进的检测器进行比较。我们考虑COCO指标[46]并报告COCO mAP，因为它⼴泛用于评估检测算法。即使该指标是为基于帧的数据设计的，我们也会在补充材料中解释我们如何将其扩展到事件数据。由于标记是使用4 Mpx相机完成的，但输⼊事件的分辨率较低，因此在我们所有的实验中，我们过滤对角线⼩于60像素的框。所有⽹络都使用ADAM[47]训练了20个epoch，学习率为0.0002，每个epoch的指数衰减为0.98。然后我们在验证集上选择最佳模型并将其应用于测试集以报告最终的mAP。

5.1 消融实验

如3.2节中所述。我们的网络可以将不同的表示作为输入。在这里，我们比较了常用的Histograms of events[48,22]、Time Surface[49]和Event Volume[23]。结果在表1中给出。我们看到Event Volume表现最好。Time Surface的准确度⽐Event Volume低2% ，但⽐简单的Histograms更准确。我们注意到我们还可以与⽹络一起学习输⼊表示H 。例如将它与[50,51,52]组合。然而，出于效率的原因，我们决定使用预定义的表示并在网络的更深层而不是在像素级别引⼊内存机制。

表1：基于百万像素数据集的消融学习。左：不同表示方式的mAP (不引入一致性损失)。右：我们方法的mAP 和mAP75 (去除一些组件)，使用的是Event Volume输入。“w/o memory”代表的是强制使得所有层的hk 归零。

5.2 与最好算法的比较

我们现在将我们的方法与1Mpx检测数据集和Gen1检测数据集[5]上的最新方法进行比较，后者是使用QVGA事件相机[53]获取的另一个汽车数据集。

我们将我们的方法Recurrent Event-camera Detector表⽰为RED。对于这些实验，我们考虑50毫秒的事件量。由于基于事件的检测可用的算法并不多，因此我们使用前馈架构作为基线，该架构应用于与我们相同的输⼊表⽰，从而模拟[33]和[27]的方法。我们考虑了几种架构，得出了相似的结果。我们在这里报告ResNet50[54]主⼲和特征⾦字塔方案的RetinaNet[42]，因为它给出了最好的结果。我们将这种方法称为Events-RetinaNet。然后，我们考虑[10]的方法(这是⽬前从事件中重建灰度图像的最佳方法)，并使用循环Unet。为此，我们使用作者公开发布的代码和⽹络。然后，我们在这些图像上训练RetinaNet检测器。我们将这种方法称为E2Vid-RetinaNet。对于所有方法，在将输⼊传递到检测器的第⼀个卷积层之前，输⼊的高度和宽度会被下采样2倍。对于Gen1检测数据集，我们还报告了⽂献[13]中提供的结果。

最后，由于1Mpx数据集是与RGB相机⼀起记录的，我们可以在这些图像上训练基于帧的检测器。由于事件不包含颜⾊信息，我们首先将RGB图像转为灰度图。此外，由于标签中的噪声⽔平相同(来源于自动标注)，我们将帧相机像素映射到与事件相机相同的分辨率和FOV。通过这种方式，我们可以估计灰度检测器在我们的数据集上的表现。同样，由于Gen1数据集是使用提供灰度图的事件相机获取的，我们可以对它们运行RetinaNet检测器。我们将这种方法称为Gray-RetinaNet。我们获得的结果在表2中给出。我们还报告了⽹络的参数数量和包括事件预处理和检测器推断的运行延时，设备为i7 CPU和GTX980 GPU。定性结果在图4和补充材料中提供。从图4中，我们可以尤其看到模型即使在汽车不产生事件时也能继续将其检测出来。而与此同时，Events-RetinaNet和E2Vid-RetinaNet分别变得不稳定以及过度光滑，进而无法检测。从表2中我们可以看出，我们的方法大大优于所有其他基于事件的方法。在1Mpx数据集上，由于由[10]重建的图像质量很好，因此E2Vid-RetinaNet是第二好的方法，即使其落后我们 18%。相反，在Gen1数据集上，[10]的模型没有泛化得很好，产生的图像质量较差。因此，在这个数据集上，Events-RetinaNet得分更高。我们的方法在1Mpx数据集上达到与Gray-RetinaNet相同的mAP，使其成为第⼀个与帧检测器精度相当的事件相机检测器。如果我们还考虑颜⾊，RetinaNet的mAP将增加到0.56，证明颜⾊信息有助于提高准确性。正如同在[55]里那样，如果传感器能获取颜色信息，我们的方法将会有所收益。在 Gen1 数据集上，我们的方法表现稍差，这是由于QVGA传感器有更高⽔平的噪声，且低频的标签使得训练一个循环模型更为困难。最后，我们观察到我们的方法⽐其他方法的参数少，它能做到实时运行。在1Mpx数据集上，它⽐重建灰度图的E2Vid-RetinaNet快21倍。

图4：基于百万像素数据集序列的检测结果。从上到下分别是：Events-RetinaNet，E2Vid-RetinaNet(输入的是重构的灰度图)，以及我们的方法RED。多亏了我们的网络所学习的记忆机制表示，即使物体停止产生事件，举个例子，即便是在右边所停靠的、被摩托车遮挡的车辆，RED依然能将其检测出来。

表2：在两个驾驶数据集上的验证

5.3 失败案例

在本节中，我们将讨论我们的⽹络和第4章⾃动标记的⼀些失败案例。在图5中，我们将检测器在实例序列上的结果与ground truth⼀起展示。在ground truth中，我们观察到两种类型的错误：几何错误和语义错误。几何错误(例如对象和边界框之间的未对准)，是由事件相机和帧相机之间不精确的时间和空间配准所导致。语义错误，例如标签错配或错误框，是由用于标注的检测软件的错误检测造成。如果方框位置均匀分布在物体周围，则我们的检测器可以纠正些几何误差。语义标签更难纠正，对于异常数据鲁棒的损失可能会有助于训练。此外，我们观察到我们的检测器会对同一目标产生双重检测，并且在⼩物体上不太准确。

图5：标注及检测的失败案例。当方框对应于标签时，对方框进行上色。从左到右：异常标注，标注错位，多重检测，标签交换。

5.4 推广到夜间数据和其他事件相机

我们接下来研究检测器的泛化能力。⾸先，我们专注于将仅使用白天数据训练的检测器应用于夜间数据。由于事件相机不受绝对照度水平的影响，因此基于事件的检测器应该⽐基于帧的检测器具有更好的泛化能力。为了测试这⼀点，我们将RED和Gray-RetinaNet检测器应用于新录制的夜间序列，这些序列是使用第4章的事件相机和⼀个HDR运动相机采集的。我们强调这些网络已经仅仅使用白天数据进行训练。这是因为第4章中的基于帧的标注软件对于夜间数据不够准确，我们在图6和附录中报告了定性结果。可以观察到Gray-RetinaNet的准确率大幅下降。这是由于夜间序列中固有的截然不同的照明条件和更高⽔平的运动模糊。相反，我们的方法在这些条件下仍然表现良好。

在第二个实验中，我们测试了使用不同类型的相机作为输⼊时⽹络的泛化能力。由于没有带具有目标检测标签的数据集，我们报告了在MVSEC数据集[32]上的定性结果，这是⼀个使用DAVIS-346相机获取的汽车数据集。为此，我们使用在Gen1数据集上训练的模型，因为它是使用与DAVIS具有相似分辨率的 ATIS相机获取的。从图7中我们看到，即使模型是在不同的相机上训练的，它在DAVIS序列上也能很好地泛化。

图6：上：Gray-Retinanet 应用于一个HDR驾驶相机记录的数据。下：我们的检测器RED应用于百万像素事件相机在相同场景下录制的数据。检测器训练于白天的数据。Gray-Retinanet无法很好地泛化到夜间的图片里。作为对比，RED泛化到夜间序列，因为其对绝对光强不受影响。

图7：RED检测器训练于ATIS数据，然后作用于DAVIS序列中。即使我们的模型训练于不同的相机数据，它依然能泛化到其他的传感器、观测点和光照条件。

6 总结

我们提出了⼀个高分辨率的事件检测数据集和⼀个实时的循环神经⽹络架构，它可以检测来⾃事件摄像机的目标，其精度与主流灰度检测器相同。我们展示了随着时间的推移连续地检测物体是可能的，不需要中间灰度级图像重建。但是，我们的方法仍然需要通过稠密的事件表示。这意味着我们的方法没有利用输入数据的稀疏性。未来，我们计划利用事件的稀疏性来进⼀步降低计算成本和延迟。举个例子，这可以通过调整我们的方法，使其在神经形态硬件上运行来完成 [56, 57]。

GDZSSHL

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
4
评论
[论文翻译]Learning to Detect Objects with a 1 Megapixel Event Camera

事件摄像机以高时间精度、低数据率和高动态范围对视觉信息进行编码。由于这些特性，事件摄像机特别适用于具有高级运动、具有挑战性的照明条件和低延迟需要的场景。然而，由于该领域的新颖性，与传统的基于帧的解决方案相⽐，基于事件的系统在许多视觉任务上的性能仍然较低。造成这种性能差距的主要原因是：与帧相机相比，事件传感器的空间分辨率较低；缺乏大规模的训练数据集；缺乏用于基于事件的处理的完善的深度学习架构。在本文中，我们在基于事件的对象检测任务的上下文中解决了所有这些问题。
复制链接

扫一扫