CVPRW2021中的事件相机研究(上)

本文首发于公众号:【事件相机】,CVPRW2021中的事件相机研究(上)

在这里插入图片描述
CVPR Workshop on Event-based Vision是围绕事件相机的专题研讨会,2021年是第三届由CVPR主办,第一届为ICRA2015,第二届在CVPR2019。目前看来是隔年一次。本次CVPRW涉及论文共14篇,本文介绍上半部分。

N-ROD: a Neuromorphic Dataset for Synthetic-to-Real Domain Adaptation [1]

本文主要研究迁移学习的sim2real问题,即仿真得到的event数据和实际拍摄的event差距具体在哪里。文章利用合成的RGBD图像并用ESIM[A1]合成event,得到一个表示方式。之后再利用真实的RGBD和event数据的到另一个表征。通过Domain Adaptation来缩小synth-to-real之间的gap。

图片

文章指出,和近期的[A2]不同的,[A2]的source和target都是仿真得到的event。本文的工作同时完成了两个domain-shift,即包含了sim-to-real和synth-to-real。我个人理解,synth指的是RGBD的合成,sim指的是event的仿真。

A Cortically-inspired Architecture for Event-based Visual MotionProcessing: From Design Principles to Real-world Applications [2]

本文研究利用多层SNN网络做运动估计,即光流问题。作者是研究bioengineering的,故与之前搞CV和Robotics做SNN的相比更加专业。其仿照生物感知的方式,设计了一个三层SNN网络:第一层是Gabor感知域,是一个带宽滤波,第二层接一系列的时空滤波器,仿照生物的V1区域的简单细胞,第三层仿MT cortical区域来估计运动方向和速度。

图片

EFI-Net: Video Frame Interpolation from Fusion of Events and Frames [3]

又是关于插值。但本文涉及到了颜色的恢复,得出重要结论:“彩色低频高分辨率图像+高频低分辨率事件流可以取得高频高分辨率彩色图像”。主要框架如下:传统图像转化表示后下采样,和Event构成的数据表示在phase I进行融合,在phase II进行超分插值,在phase III进行颜色恢复。
在这里插入图片描述

网络的训练包括两个阶段,首先训练I和II,目标函数为VGG19的特征、intensity的L1误差和梯度强度(为取得清晰图像),再训练III,目标函数主要是包括特征和时间一致性。这么看起来,有点儿像把许多网络拼起来完成一套任务。

Lifting Monocular Events to 3D Human Poses [4]

单目事件相机做人体姿态估计,是第一个“用单个事件相机做人体姿态估计的learning-based方法”。所采用的思路也很有趣,不知道是不是一种普通相机姿态检测的思路:首先根据event预测xyz三个平面的热度图,再在热度图中检测关节后进行三角化获得空间位姿。
在这里插入图片描述

Differentiable Event Stream Simulator for Non-Rigid 3D Tracking [5]

本文提出了第一个可以仿真非刚性物体的仿真器,仿真器基于光照恒定假设和理想散射。并进行了3D非刚性物体的跟踪。
在这里插入图片描述

Comparing Representations in Tracking for Event Camera-based SLAM [6]

本文主要对比了两种事件表示方式:Time Surface(TS) 和 Event Map(EM)两种,在SLAM任务(主要是特征跟踪上)的表现。TS用的地方较多,例如出名的ESVO[A3]利用的是TS进行的双目关联;而UltimateSLAM[A4]用的是EM提取FAST特征进行的跟踪。那二者有何优缺点?
在这里插入图片描述

(图:左TS表示,右为一定时间内的EM)

简单来说,EM计算远快于TS,但对时间选择要求较高,容易发生模糊。但在事件发生频率较低时,TS可靠性降低。作者引入了[A5]中的思想,当场景退化时采用EM跟踪,场景没有退化时采用TS跟踪,取得了更好的效果。

How to Calibrate Your Event Camera [7]

详细介绍了可以怎样标定事件相机。核心观点如下:采用E2VID[A6]重建标定板,再通过Kalibr[A7]进行标定。详细的关于标定的内容请参考之前的推送:事件相机单目标定

[1]. Bousmalis, Konstantinos; Trigeorgis, George; Silberman, Nathan;Krishnan, Dilip; Erhan, Dumitru (2016): N-ROD: a Neuromorphic Dataset forSynthetic-to-Real Domain Adaptation. Available online athttp://arxiv.org/pdf/1608.06019v1.
[2]. Francesca Peveri, Simone Testa, Silvio P. Sabatini: ACortically-inspired Architecture for Event-based Visual Motion Processing: FromDesign Principles to Real-world Applications.
[3]. Genady Paikin, Yotam Ater, Roy Shaul,Evgeny Soloveichik: EFI-Net:Video Frame Interpolation from Fusion of Events and Frames.
[4]. Gianluca Scarpellini, Pietro Morerio,Alessio Del Bue: Lifting Monocular Events to 3D Human Poses.
[5]. Jalees Nehvi, Vladislav Golyanik, Franziska Mueller: DifferentiableEvent Stream Simulator for Non-Rigid 3D Tracking.
[6]. Jianhao Jiao, Huaiyang Huang, Liang Li, Zhijian He, Yilong Zhu† Ming Liu: Comparing Representations in Tracking for EventCamera-based SLAM.
[7]. Manasi Muglikar, MathiasGehrig, Daniel Gehrig, Davide Scaramuzza: How to Calibrate Your Event Camera.
[A1]. Henri Rebecq, Daniel Gehrig, and Davide Scaramuzza. Esim: an openevent camera simulator. In Conference on Robot Learning, pages 969–982. PMLR,2018.
[A2]. Mirco Planamente, Chiara Plizzari, Marco Cannici, Marco Ciccone,Francesco Strada, Andrea Bottino, Matteo Matteucci, and Barbara Caputo.Da4event: towards bridging the sim-to-real gap for event cameras using domainadaptation. arXiv, 2021.
[A3]. Yi Zhou, Guillermo Gallego, and Shaojie Shen. Event-based stereovisual odometry. 2021.
[A4]. Antoni Rosinol Vidal, Henri Rebecq, Timo Horstschaefer, andDavide Scaramuzza. Ultimate slam? combining events, images, and imu for robustvisual slam in hdr and high-speed scenarios. IEEE Robotics and AutomationLetters, 3(2):994– 1001, 2018
[A5]. Ji Zhang, Michael Kaess, and Sanjiv Singh. On degeneracy ofoptimization-based state estimation problems. In 2016 IEEE InternationalConference on Robotics and Automation (ICRA), pages 809–816. IEEE, 2016.
[A6]. Henri Rebecq, Ren´e Ranftl, Vladlen Koltun, and DavideScaramuzza, “High speed and high dynamic range video with an event camera,”IEEE Trans. Pattern Anal. Mach. Intell., 2019.
[A7]. P. Furgale, J. Rehder, and R. Siegwart, “Unified temporal andspatial calibration for multi-sensor systems,” in IEEE/RSJ Int. Conf. Intell.Robot. Syst. (IROS), 2013.


公众号后台回复:CVPRW2021,下载本文介绍的论文。

欢迎关注微信公众号【事件相机】,分享和交流事件相机的相关研究与应用。
在这里插入图片描述

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值