常见的脉冲视觉重构方法

最新推荐文章于 2025-04-27 21:21:30 发布

vpa_hdu

最新推荐文章于 2025-04-27 21:21:30 发布

阅读量1.7k

点赞数 1

文章标签：重构人工智能

本文链接：https://blog.csdn.net/2301_81029398/article/details/134674617

版权

1.脉冲相机（spike camera）

在脉冲照相机中，光的强度通过感光器转换成电压。一旦模数转换器(ADC)完成信号转换并输出数字亮度强度，每个像素处的累加器累积强度。不同的亮度强度导致不同的积累速率。对于一个像素，如果累计强度达到调度阈值φ，则触发一个脉冲，表示这里的亮度足够大(如式(1))。I为亮度强度，t为积分时间。

输出和复位是异步触发的。这里，在每个采样时刻，如果刚刚触发一个尖峰，则输出一个数字信号“1”，否则生成“0”。与传统相机相比，脉冲相机只关心亮度强度。考虑到在不同像素点上，亮度强度的累积速度有较大差异。对于较亮的像素，“1”比较暗的像素出现的频率更高。这个想法很容易解释。更亮的像素表示在像素处收集到更多的光子，从而导致更大的ADC值，从而更容易和更快地超过调度阈值。根据这一原理，可以通过分析尖峰的模式来重建纹理。这与神经节细胞的反应处理非常相似，通过解码脉冲延时来说明物体的轮廓。

2.TFL与TFP重构算法[1]

对任何历史时刻的纹理进行解码，有两种不同的方法用于不同的应用目的。对于实时应用，纹理从脉冲的延迟中解码(TFL)，如图4所示(重建的像素值如式(3)所示，Pti指ti时刻的重建像素值，dti指峰值出现前后的延迟时间)。当物体移动非常快时，从延迟中重建的图像几乎同步地执行运动。

纹理从来自回放的峰值中解码(TFP)，有一个移动的时间窗口收集特定时期的峰值，如图5所示(重建的像素值如式(4)所示，w指窗大小，Nw指窗的脉冲数量，C通常设置为256(8-bits))。

结果表明：TFL重建方法使物体的轮廓相当清晰，而一些细节纹理缺失。因此，TFL更适合于实时应用和一些与检测相关的任务。TFP(win=32|64|128|256)重建方法在合适的win下更加适合重建细节的纹理场景。如果在win偏小对移动对象的轮廓重建更清晰，但此时对背景像素重建质量相对较低；相反如果win偏大对背景场景重建质量相对好，而对移动对象轮廓相对模糊。

3.TFI、TFP、TFA[2]

脉冲重构可以根据两个原理来利用：1）强度与ISI成反比；2）强度与尖峰计数或尖峰频率成正比。因此，通过利用脉冲间隔(ISI)或简单地计算一段时间内的峰值，可以完全重建场景。针对高速运动和静止场景(大量的实验)，提出了三种视觉纹理重建策略，分别为TFI(Texture from ISI)、TFP(Texture from Playback)、TFA(Texture from Adaptive threshold)，其中前两种方案就是2017年提出的重建方法重新更名。

前面两种方案存在的问题：TFI无法重建细节纹理，而TFP(过分依赖于win大小)通过回放历史窗口中的尖峰来重建纹理，这会导致时间窗口长度和延迟的权衡问题。(1) 如果可以根据历史尖峰的影响自适应地重建纹理，而不是预先定义的窗口，将获得更好的结果。(2) 在生物视网膜中，脉冲被传递到视觉皮层进行高级分析，在高级分析中，各种神经元以自己的放电特征处理输入和响应。这些神经元可以抽象为典型的神经元，但具有不同的膜电位阈值以适应不同的刺激。为此，提出一种基于SRM的自适应纹理重建方法TFA（见下图5）。

图7所示(TFI的实验结果)：对象的轮廓非常清晰，但缺少一些详细的纹理。因此，TFI更适合于实时应用和一些与检测相关的任务。

对于静态场景，TFP和TFA以更多的细节和更高的动态范围重建纹理，如图8所示。对于TFP方法来说，时间窗口的大小是纹理重建的一个关键参数。我们选择了五种典型的尺寸进行比较，它们是32、64、128、256和512。从结果来看，当获得更高的动态范围时，可以用更多的细节来重建静态区域。较小的时间窗口大小可以为移动对象实现更清晰的轮廓，但为静态背景像素实现较低的质量。TFA可以被认为是TFP的自适应版本，其结果比TFP获得更好的性能，可以在静态场景中提供高质量的纹理。

4.BALI+光流+空间和时间滤波[3]

脉冲摄像机需要更多的时间来积累足够的光信号来发射弱光场景中的峰值，而场景可能已经因为高速运动而发生了变化。由于入射光不足，可能会长时间没有有效的峰值。为了解决这个问题，提出了一种脉冲摄像机的低光场景重建方法。见图3：

(1) 亮度自适应光推理（Brightness-Adaptive Light Inference，BALI)方法：根据亮度初步重建弱光场景，该方法同时利用了峰值间隔和峰值数。而大多数现有方法将不同亮度的区域视为相同。对于较暗的区域：利用TFI；对于明亮区域：TFP。

(2) 考虑到运动，我们估计光流，并对初步恢复的帧进行迭代滤波，通过时间相关处理噪声。

(3) 我们进一步根据亮度通过空间滤波器进行处理一部分噪音。

BALI模块的明暗区划分利用公式(4)区分，本质上是引入了一个窗口大小去统计该区间内的脉冲个数，当超过固定阈值时，该区域被判定为亮区。下图中隧道中漆黑的顶部采用TFI重构可以避免一些噪点，隧道口明亮的区域采用TFP同样可以减缓噪音情况。

下图显示了方法中每个阶段的结果：与(a)普通场景中的尖峰帧相比， (b)低光尖峰帧是稀疏的。后面三幅图(一本掉落的书)是我们方法在不同阶段的结果：(c) 低光尖峰流的初步重建结果；(d) 用于降低 (c) 噪声的时间滤波结果；(e) 为进一步降低 (d) 中的噪声而进行空间过滤的结果。可以发现时间滤波器可以处理BALI初步重建结果中的一些噪声，空间滤波可以进一步减少时间滤波器难以处理的噪声，从而使重建结果平滑。

实验结果表明：该方法能够以较小的量化噪声和暗噪声重建弱光场景。然而，虽然我们的方法的结果是平滑的，细节很好，但在很多情况下对比度不够好，我们将在未来研究一种增强方法。

5.参考文献

[1] S. Dong, T. Huang, and Y. Tian, "Spike camera and its coding methods, in Data Compression Conference (DCC), 2017, p. 437.

[2] L. Zhu, S. Dong, T. Huang, and Y. Tian, "A retina-inspired sampling method for visual texture reconstruction," in IEEE International Conference on Multimedia and Expo (ICME), 2019, pp. 1432–1437.

[3] Y. Dong, J. Zhao, R. Xiong and T. Huang, "High-Speed Scene Reconstruction from Low-Light Spike Streams," 2022 IEEE International Conference on Visual Communications and Image Processing (VCIP), Suzhou, China, 2022, pp. 1-5, doi: 10.1109/VCIP56404.2022.10008850.