[ECCV 2024] Exploring Vulnerabilities in Spiking Neural Networks：Direct Adversarial Attacks on Raw E_exploring adversarial attack in spiking neural net-CSDN博客

本文链接：https://blog.csdn.net/qq_22841387/article/details/142424450

Exploring Vulnerabilities in Spiking Neural Networks：Direct Adversarial Attacks on Raw Event Data

探索脉冲神经网络中的漏洞：对原始事件数据的直接对抗性攻击
ECCV Poster
Exploring Vulnerabilities in Spiking Neural Networks: Direct Adversarial Attacks on Raw Event Data - YouTube

摘要

在计算机视觉领域，基于事件的动态视觉传感器（DVSs）已成为传统基于像素的成像技术的重要补充，原因在于其低功耗和高时间分辨率。这些传感器，特别是在与脉冲神经网络（SNNs）结合使用时，为能效高、反应迅速的视觉系统提供了有前景的方向。通常，DVS数据会被转换为网格格式，以便与SNNs一起处理，但这一转换过程往往是管道中不透明的步骤。结果，网格表示成为攻击实施过程中的一个中间但无法访问的阶段，这凸显了攻击原始事件数据的重要性。现有的攻击方法主要针对网格表示，由于三值优化的复杂性以及与原始事件数据相关的广泛优化空间，使得这些方法受到限制。我们的研究通过引入一种新颖的对抗攻击方法，直接针对原始事件数据，解决了这一问题。我们通过一系列方法的战略融合来应对三值优化的固有挑战并保留数据稀疏性：

1）将离散事件值视为概率样本：这允许通过将离散事件值视为概率空间样本进行连续优化。

2）聚焦于特定事件位置：我们优先考虑特定事件位置，将原始数据与附加目标标签数据合并，提升攻击精度。

3）采用稀疏性规范：为了保留原始数据的稀疏性，使用稀疏性规范，确保对抗数据的可比性。

我们的实证研究表明，结合的方法在目标攻击中取得了显著成功，并突显了基于原始事件数据的模型中的漏洞。

关键词：对抗性攻击；脉冲神经网络；原始事件

1.引言

动态视觉传感器（DVSs）作为事件摄像机的领先代表，标志着仿生视觉技术的重大进步。这些传感器检测亮度变化，并在这些变化超过特定阈值时发出异步脉冲。它们的输出以稀疏坐标（COO）格式存储，提供了传统基于帧的相机无法比拟的优势，包括高时间分辨率、低功耗和最小的数据冗余。

这种输出的独特特性与脉冲神经网络（SNNs）的功能高度一致，后者通过跨层的二进制脉冲处理模拟动物大脑的信息处理，并结合了时间动态。这种对齐性通过神经形态设备的协同作用得到了进一步增强，使得事件数据的高效异步处理成为可能。然而，事件数据的高时间分辨率和固有稀疏性带来了诸如内存开销增加和训练效率降低等挑战。为了解决这些问题，原始事件数据通常从稀疏COO格式转换为更密集的网格格式，例如事件计数帧，这是许多视觉管道中的常见步骤。

在处理事件数据集的SNNs中，安全性问题至关重要，尤其是在对原始事件数据进行对抗性攻击的背景下，这是SNNs对抗性攻击研究中尚未得到充分探索的领域。攻击原始事件数据带来了一系列独特的挑战。首先，它需要在一个广泛的优化空间中进行导航，通常在微秒（μs）级别，每个样本超过10,000个时间戳，使得全面搜索对抗性样本在实践中难以实现。其次，需要解决高时间分辨率问题，这会导致显著的内存挑战和使用梯度方法进行优化时的计算成本。第三，在对抗性样本中保持原始事件数据的固有稀疏性至关重要，因为样本中事件过多或过少都很容易被检测到。此外，SNN对抗性攻击中的优化问题涉及三值优化，这不同于人工神经网络（ANNs）中的像素级优化，需要更有针对性的分析和解决方案。这些因素共同引入了较高的复杂性，需要高级技术来打造有效且隐蔽的对抗性样本。

因此，鉴于上述挑战，现有研究通常专注于在优化过程中攻击事件数据的网格表示，这是事件数据的中间表示形式。该领域的研究大致分为两种方法：对连续网格表示的攻击和对二进制网格表示的攻击。对连续网格表示的攻击与传统的攻击方法一致，例如投影梯度下降（PGD）和快速梯度符号方法（FGSM）。相反，二进制网格表示攻击涉及离散值的额外挑战，例如，SpikeFool将平滑值逐步舍入为整数，并使用其整数对应的梯度更新这些值；DVS-attacks采用避开优化的启发式方法；Spike-Compatible Gradient直接在离散空间中优化，使用与脉冲兼容的梯度。然而，网格表示的过程可能是非一致的，或无缝集成在视觉管道中（如图1所示）。
在这里插入图片描述

图1：我们的方法与其他方法的比较。绿色箭头表示在最终攻击实施中无法访问的操作。网格表示过程集成在视觉管道中，仅暴露用于原始事件数据处理的接口。我们的方法生成与此接口直接兼容的对抗性样本，而其他方法则在视觉管道内生成中间结果。

这意味着即使攻击者完全了解在线模型，也很难在基于网格表示的框架中发起攻击，因为模型不提供基于网格表示的接口。

为了应对三值优化、广泛的优化空间、离散值和事件数据高稀疏性的问题，我们提出了一个系统的解决方案。通过将离散值视为连续概率空间中的样本，我们采用Gumbel-Softmax采样技术和直接估计器，将离散优化问题转化为连续问题。我们还专注于特定位置，这些位置结合了原始事件和目标标签的附加位置，以优化目标，从而显著缩小优化空间，同时保持数据稀疏性并提高攻击性能。此外，我们在损失函数中引入了额外的惩罚项，以进一步增强性能。我们的实证结果表明，该策略在针对SNN模型的目标攻击中，在保持更大稀疏性方面比其他方法表现出色。进一步的消融实验表明，这些技术的有机结合在实现高效的对抗性攻击中起着重要作用。据我们所知，我们的工作是首次成功实现针对SNNs的原始事件数据攻击。我们的贡献总结如下：

离散空间中的梯度优化：为克服梯度优化在离散空间中无法应用的问题，我们采用了Gumbel-Softmax采样策略和直接估计器，将离散优化问题转化为连续问题。
高效位置选择：为应对在广阔空间中优化的挑战，我们专注于特定位置，这些位置结合了原始事件和目标标签的附加位置以优化目标。
有效的组合：我们在目标问题中引入了额外的惩罚项，实验证明，这些技术的战略整合在原始事件数据对抗性攻击中取得了显著的结果。

2 预备知识

2.1 事件数据

原始事件数据。事件摄像机基于一种创新的原理工作，其中各个像素响应对数亮度变化独立触发事件，这些事件表示为 $L (x, y, t)$ 。这些事件在以下条件下发生：

$\Delta t)| \geq C,$

其中 $C$ 表示对比度阈值， $\Delta t$ 是自上次事件以来经过的时间。通常，使用 $p$ 来表示亮度变化的极性：

$\text{sign}(L(x, y, t) - L(x, y, t - \Delta t)).$

在指定的时间间隔 $\Delta \xi$ 内，摄像机会生成一系列事件 $\mathcal{E}$ ：

$\mathcal{E} = \{e_k\}_{k=1}^{N} \quad \text{定义为} \quad \{(x_k, y_k, t_k, p_k)\}_{k=1}^{N}.$

由于摄像机的异步特性，时间窗口 $\Delta \xi$ 内的事件被封装为稀疏的COO张量。稀疏COO张量包含索引 $I = \{(x_k, y_k, t_k)\}_{k=1}^{N}$ 和值 $V = \{p_k\}_{k=1}^{N}$ ，分别表示事件的位置和极性。

网格表示。由于大多数网络在处理稀疏COO格式张量时的局限性，需要一个映射 $\mathcal{M} : \mathcal{E} \rightarrow \mathcal{T}$ 将事件集
$\mathcal{E}$ 转换为密集张量 $\mathcal{T}$ 。概念上，事件可以被视为在由空间坐标 $(x, y)$ 、时间和极性定义的四维流形内的点。这些点通过核卷积聚合，如下所述：

$S_{\pm}(x, y, t) = \sum_{e_k \in \mathcal{E}_{\pm}} f_{\pm}(x_k, y_k, t_k)k(x_l - x_k, y_m - y_k, t_n - t_k),$

其中该聚合发生在连续的空间和时间内，并分别针对正极性 ( $\mathcal{E}_+$ ) 和负极性 ( $\mathcal{E}_-$ )。函数 $k (x, y, t)$ 表示聚合核，代表脉冲的存在。常用的核包括Dirac脉冲 $\delta(x, y, t) = \delta(x) \delta(y) \delta(t)$ 、alpha核 $\frac{1}{\tau} e^{1 - t/\tau}$ 和指数核 $\frac{1}{\tau} \text{exp}(-t/\tau)$ 。这些函数如事件极性 $f_{\pm}(x, y, t) = \pm 1$ 、事件计数 $f_{\pm}(x, y, t) = 1$ ，以及归一化时间戳 $f_{\pm}(x, y, t) = \frac{t - t_0}{\Delta t}$ 。通常通过在固定间隔下采样卷积信号来实现这些事件的网格表示：