文献阅读笔记系列一：事件相机3D重建的方法探究-CSDN博客

本文链接：https://blog.csdn.net/qq_60818566/article/details/135570152

一.问题的描述

1.1事件相机

事件相机是一种仿生传感器，与传统相机不同，它异步测量每像素的亮度变化，并输出编码这些变化的时间、位置和符号的事件流[1]。事件相机具有高时间分辨率、高动态范围、低功耗和高像素带宽等特性，使其在机器人和计算机视觉领域具有巨大的潜力。然而，需要新的方法来处理这些传感器的非常规输出，以释放其潜力。

1.2 事件

事件相机拍摄的是“事件”，可以简单理解为“像素亮度的变化”，即事件相机输出的是像素亮度的变化情况。当场景中物体运动或光照改变造成大量像素变化时，事件相机会产生一系列的事件，并以事件流的方式输出。这些事件具有时间戳、像素坐标与极性三个要素，表达的是“在什么时间，哪个像素点，发生了亮度的增加或减小”。图1[2]展示了理想情况下传统相机和事件相机的输出比较。当圆盘匀速转动时，传统相机输出的帧之间存在时间间隔，导致一定延迟，而事件相机输出连续。当圆盘静止时，事件相机无事件信息输出，传统相机仍产生图像，可能导致数据冗余。当圆盘转速加快，传统相机出现运动模糊，而事件相机响应正常。

图1 事件相机与传统相机输出比较[2]

1.3 问题描述与相关工作

事件相机与传统的帧相机存在根本性差异，现有计算机视觉算法不能直接应用于事件相机。尽管事件相机的硬件已经相当精确和高效，但利用事件流进行图像重建仍面临挑战：一是事件流的时间分辨率高，但输出的强度图像帧率较低；二是记录高速运动场景时，由于相机与场景的相对运动，输出的强度图像往往模糊[3]。

为了应对这些挑战，研究者已经提出了重构高质量图像和高帧率视频的各种方法。然而，目前性能最好的方法需要多个事件摄像机来执行深度估计[4][5]，然后从估计的深度图创建3D重建。虽然可以为相同的任务使用一个事件摄像机，但这些方法只能创建半密集重建[2][6]。其他可以产生密集重建结果的单目方法都需要通道[7][8]。

二.研究方法探究

2.1 事件相机原理

为了深入理解事件相机，我们需要探究事件流形成的数学过程，其典型数据可表示为：

式中：L:像素点亮度； $(x{_{k}},y{_{k}})$ 像素点位置；k:第K时刻；p:事件极性。

事件相机以异步方式回传事件数据，不同于传统相机同时回传所有像素值。当像素亮度发生变化时，事件相机会产生事件，包含像素坐标、时间戳和极性（表示亮度变化方向）。这种异步工作机制使得事件相机具有低延迟特性，能够捕捉到短时间间隔内的像素变化。

图2展示了事件流的实例。在(a)图中，我们观察到事件流随时间的变化，以三维坐标系的形式呈现。虽然无法直接从(a)图中获取时间相机捕获的图像信息，但通过将事件流的时间轴进行堆叠，将三维图形投影到二维平面，形成如(b)图的二维图像，可以清晰地观察到一个人的轮廓。

事件相机通过捕捉像素点的亮度变化来检测物体的运动。由于物体轮廓的像素变化最为显著，事件相机主要提取物体在时间上的运动信息，尤其是轮廓信息。这些信息被整合成一个包含时间信息在内的三维矩阵，即事件流。因此，事件流本质上是对物体在时间上运动信息的提取，形成包含时间信息的三维矩阵。这种信息提取方式使得事件相机在处理动态场景时具有较高的准确性和实时性，为许多领域的应用提供了新的可能性。

（a）（b）

图2 事件流举例

2.2 基于CNN方法的网络原理

针对这种特殊的数据类型，文献[9] 受到pix2vox方法[10]启发提出了一种基于单目相机的密集重建方法。Pix2vox是一个用于单视图和多视图3D重建的新框架。如图3所示，包含四个模块：编码器、解码器、细化器。

图3 Pix2vox网络结构图[10]

编码器是为解码器计算一组特征来恢复对象的 3D 形状。前九个卷积层使用 ImageNet上预训练的VGG16的相应批量归一化层，利用ReLU激活，用于从 224 × 224 × 3 图像中提取 512 × 28个特征张量。这种特征提取之后是三组2D卷积层、批量归一化层和ELU层，将语义信息嵌入到特征向量中。在Pix2Vox-F中，第一卷积层的核大小为12，而其他两个的核大小为32。卷积层的输出通道数从512开始，后续层的输出通道减少一半，最终达到128。在Pix2Vox-A中，三个卷积层的核大小分别为32、32、12。三个卷积层的输出通道分别为 512、512 和 256。在第二层卷积层之后，Pix2Vox-F 和 Pix2Vox-A 中内核大小分别为 32 和42的最大池化层。Pix2Vox-F 和 Pix2Vox-A 生成的特征向量大小分别为2048和16384。

解码器负责将 2D 特征图的信息转换为 3D 体积。Pix2Vox-F和 Pix2VoxA中有五个 3D 转置卷积层。具体来说，前四个转置卷积层的内核大小为43，步幅为2，填充为1。还有一个额外的转置卷积层，有13个滤波器。每个转置卷积层后面都有一个批量归一化层和一个 ReLU 激活，除了最后一层后面跟着sigmoid函数。在Pix2Vox-F中，转置卷积层的输出通道数为128、64、32、8和1。

细化器可以看作是一个残差网络，旨在纠正3D体积的错误恢复部分。它遵循具有 U-net方法[11]的3D编码器-解码器的想法。在编码器和解码器之间的U-net连接的帮助下，可以保留融合体积中的局部结构。具体来说，编码器有三个3D卷积层，每个卷积层有43个过滤器，填充为2，然后是批量归一化层、泄漏ReLU激活和内核大小为23的最大池化层。卷积层的输出通道数分别为32、64和128。编码器最后是两个尺寸为2048和8192的全连接层。解码器由三个转置卷积层组成，每个卷积层有43个滤波器，填充为2，步幅为1。除了最后一个转置卷积层后面跟着sigmoid函数，其他层后面是一个批处理归一化层和一个ReLU激活。

2.3 基于SNN方法的网络原理

人工智能神经网络(ANN)受启发于生物神经元机理，使用计算机方法结合多层神经元学习，训练解决特定实际问题。图4展示了脉冲神经网络(SNN)与ANN的区别，在网络结构上二者是完全一样的，但是SNN使用的是生物动力方程，即为膜电位的方式在神经元之间传递信息，而ANN使用的是函数加权的方式。

图4 ANN与SNN比较图

神经元之间传递信息的过程是通过电化学信号的传递实现的。当一个神经元受到刺激时，它会激发一个电冲动，也称为动作电位。这个动作电位沿着神经元的轴突传播，并传递到突触。在突触处，神经元释放神经递质，这是一种化学物质，可以与突触后膜上的受体结合。当神经递质与受体结合后，突触后膜上的离子通道会打开，使得离子可以流动，进而引起膜电位的改变。这个膜电位的改变会进一步触发下一个神经元产生动作电位，从而实现信息的传递。

在SNN中，神经元之间的连接是稀疏的，并且信息传递是通过脉冲序列完成的。每个神经元都根据接收到的脉冲序列调整自己的脉冲频率和发放模式，从而实现学习、记忆和信息处理等功能[12]。在实际训练过程中，由于脉冲神经元的传递函数通常是不可微的，这使得传统的基于梯度的优化方法难以应用。此外，SNN中的时间延迟和脉冲信息使得网络的动态行为变得复杂，增加了训练的难度。为了解决这些训练难点，研究者们正在不断探索新的训练方法和算法。例如，基于脉冲时间依赖的突触可塑性（Spike Timing Dependent Plasticity，STDP）可以用于训练SNN[13]。STDP是一种根据神经元发放时间的相对顺序来调整突触权重的规则，通过调整突触权重可以改变神经元的响应特性。

三.研究实现

3.1 基于CNN的方法

图5 E2V模型

参考pix2vox与Unet网络的原理,图5中文献[9]提出了一个适用于事件流的E2V模型，模型构建代码见附录。

3.2 基于SNN的方法

SNN的训练方法主要包括无监督学习规则、基于ANN的间接学习算法和BP有监督直接学习算法。无监督学习规则通过调整突触权重来模拟神经元的交互，基于ANN的间接学习算法将传统ANN的训练结果直接应用于SNN，而BP有监督直接学习算法则需要针对SNN的非线性特性进行改进。在本文中鉴于已有E2V模型，尝试了ANN2SNN的方法，但是没有得到结果。

四．研究结果