CVPRW2021中的事件相机研究（下）

最新推荐文章于 2024-06-03 22:26:49 发布

larry_dongy

最新推荐文章于 2024-06-03 22:26:49 发布

阅读量1.7k

点赞数 1

分类专栏：事件相机理论学习文章标签：智能传感器

原文链接：https://mp.weixin.qq.com/s/ngzHDYEqgCRZ7y7NDOLcbA

版权

事件相机理论学习专栏收录该内容

27 篇文章 208 订阅

订阅专栏

本文首发于公众号：【事件相机】，CVPRW2021中的事件相机研究（下）

CVPR Workshop on Event-based Vision是围绕事件相机的专题研讨会，2021年是第三届由CVPR主办，第一届为ICRA2015，第二届在CVPR2019。目前看来是隔年一次。本次CVPRW涉及论文共14篇，本文介绍下半部分。

Image Reconstruction from Neuromorphic Event Cameras using Laplacian-Prediction and Poisson Integration with Spiking and Artificial Neural Networks [1]

本文又是关于重建，但采用了两阶段的神经网络。第一个神经网络做Laplacian预测，第二个做基于Laplacian图的图像重建，极大地减少了网络参数（仅200个）。

简单介绍下重建方法的发展历程，总的来说是从传统方法到深度学习方法。最初比较经典的工作室kim[A1]在相机跟踪时通过泊松积分重建了全景图，紧接着有大量基于Laplacian图泊松重建的方法。之后深度学习的方法取得了不错的效果，典型代表是E2VID[A2]系列。
在这里插入图片描述

这篇文章的思路如上图，首先从event frame到Laplacian图是由一个CNN完成，得到L后通过泊松积分得到完整图像。泊松积分由一个SNN实现。作者修改了CNN为Spiking CNN，进一步降低了参数量。优化的目标函数主要为三部分：绝对灰度值误差、结构相似性误差[A3]和Edge Loss[A4]。前两个是learning-based的重建常用的损失函数，有的方法还有时间一致性损失以保证视频的连贯性。

Detecting Stable Keypoints from Events through Image Gradient Prediction [2]

这篇文章的思路很有趣：重建梯度图比重建完整图像理论上容易很多，那我直接在梯度图上进行关键点跟踪。文章采用一个RNN网络从event预测梯度图，之后直接在梯度图上提取Harris。网络训练的目标函数是传统图像的Sobel梯度和重建梯度的L1误差。

在这里插入图片描述

这篇文章启发我们，是不是有些工作用梯度就可以解决，就可以不用完整图像了。

Spike timing-based unsupervised learning of orientation, disparity, and motion representations in a spiking neural network [3]

基于SNN的视差、运动等。SNN不懂，这文章就不展开了。

Feedback control of event cameras [4]

这篇文章的一作是Tobi Delbruck（INI组带头人、事件相机发明人、iniVation董事），居然是大佬的一作，那肯定很有深度。本文研究的是“事件相机参数的反馈控制”，并不是控制别的东西，而是反馈调节相机的参数。

在这里插入图片描述

文章详细介绍了相机的参数影响因素，包括偏置电流bias、对比度阈值contrast threshold、光感受器带宽、不应期refractoryperiod等。并提出了事件频率、阈值控制、不应期调整、带宽调整信噪比等方法，有大量实测数据的图表。强烈建议想了解事件相机硬件细节的朋友，多看一些Tobi自己的（主要是一作的）文章，一般都有非常详细的数据。

我看到这篇文章还是很激动的，应该是Tobi这边想把一些自动调参的功能做到片上或板卡，减少用户调参的工作。我也调过CeleX和Prophesee的参数，真的感觉怎么调都调不好。

DVS-OUTLAB: A Neuromorphic Event-Based Long Time Monitoring Dataset for Real-World Outdoor Scenarios [5]

DVS-OUTLAB数据集，户外场景长时间的监控数据，有标签可用于训练任务。采用CeleX4录制事件和图像，在传统图像提取目标标注到事件数据上。并分析了温度对噪声的影响。
在这里插入图片描述

很早之前有朋友问过我，DVS能不能做雨滴的检测与清除，当时还查了下只能查到类似于斑点跟踪(blob tracking)一类的方法，learning-based没有，主要原因是没有数据集。或许这个数据集可以提供一部分下雨的数据。

数据集网站：http://dnt.kr.hsnr.de/DVS-OUTLAB/

Live Demonstration: Incremental Motion Estimation for Event-based Cameras by Dispersion Minimisation [6]

Live Demo是workshop中常见的环节，我没有参加过，但感觉应该是现场展示一些功能。这篇文章主要是为了表明：采用他们之前提出的一种增量式处理方法[A5]，可以实时地做运动估计。
在这里插入图片描述

v2e: From Video Frames to Realistic DVS Events [7]

首先在这里解释下仿真器(Emulator)和模拟器(Simulator)严格来讲是有区分的，事件相机这边Simulator和Emulator都出现过。但我觉得叫“仿真”顺口，所以一律说成“仿真器”。

本文研究从video到event的仿真。说到仿真，大家最熟悉的应该是ESIM[A6]，在此之前还有Event Camera Dataset andSimulator[A7]，之后还有vid2e[A8]，以及这篇提到的v2e。那么这些仿真有什么区别呢？当然肯定是“原来越真”。

我们先从[A7]开始，它只是一个最基本的仿真，在两个frame之间做差分，如果亮度超过阈值，则生成一个event，非常naïve的方法。

在这里插入图片描述

图：左侧为[A7]的采样，和frame同步；右侧为ESIM[A6]，自适应频率且和frame频率无关

ESIM[A6]主要的改进有：动态采样频率（变化快的地方采样更快）使得事件变得异步，而不是基于frame；同时可以增加一些简单的噪声例如对比度阈值的高斯噪声。整个仿真器是基于ROS下的，需要设定仿真场景。

v2e[A8]，是直接从video生成event，为的是充分利用当前大量的视频公开数据集，弥补event实拍数据不足的问题，首先对video进行上采样，之后利用了ESIM生成event。

在这里插入图片描述
图：v2e[A8]的框架

本文的作者有Tobi，仿真也加入很多硬件特性，包含了不同光照条件下运动模糊（这个问题比较复杂，可以简单理解为环境光强度不同时，同一个物体的边缘清晰度会不同）、延迟、光感受器带宽限制、阈值误差、热像素噪声、暗电流、时间戳噪声等因素，这些是之前的仿真完全没有考虑的。仿真结果见下图。
在这里插入图片描述
图：v2e仿真结果，可以看到在亮暗不同环境下，仿真结果和真实数据很像