脉冲神经网络（SNN）论文阅读（三）-----高精度低时延的ANN转换SNN方法

lan人啊

已于 2022-06-12 16:04:35 修改

阅读量4.1k

点赞数 9

分类专栏：脉冲神经网络（SNN）论文阅读文章标签：神经网络深度学习机器学习

于 2022-06-12 15:58:52 首次发布

本文为CSDN博主【lan人啊】原创文章，未经允许不得转载！

本文链接：https://blog.csdn.net/qq_43622216/article/details/125242976

版权

脉冲神经网络（SNN）论文阅读专栏收录该内容

10 篇文章

订阅专栏

本文介绍了北京大学研究团队在ICLR2022上发表的关于优化ANN到SNN转换方法的研究。他们分析了转换过程中的误差来源，并提出了一种新的量化clip-floor-shift激活函数，以减少延迟并提高SNN的精度。通过这种方式，可以在极低的timestep下实现高性能的SNN，适用于高精度和低延迟的应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：CSDN-脉冲神经网络（SNN）论文阅读（三）-----高精度低时延的ANN转换SNN方法

Optimal ANN-SNN Conversion for High-accuracy and Ultra-low-latency Spiking Neural Networks

准备将自己读的一些和SNN（脉冲神经网络）相关的一些论文记录下来，方便自己以后回看也希望能够帮到有需要的人。
删除了文中一些自认为不重要的内容而用自己的话进行简洁描述（很少，比如引言的一些内容），其他部分尽量使用专业用语进行翻译，如果有什么出错或不恰当的地方希望各位批评指出。

主要贡献

论文首先分析了ANN转SNN过程中的一些转换误差，然后提出了quantization clip-floor-shift activation function去替换ANN中的ReLU激活函数，这样转换后的SNN能够在较低的time step内达到较高的精度。

ANN转SNN相关公式以及动机

符号定义：首先，定义 $\boldsymbol{a^l}$ 表示ANN中第 $l$ 层中所有神经元的输出，令 $m^l(t)$ 表示在t时刻( $t i m e s t e p = t$ 时)脉冲神经元接收到前一层的输入后但并未发放脉冲前的膜电势，令 $v^l(t)$ 表示在t时刻( $t i m e s t e p = t$ 时)脉冲神经元接收到前一层的输入并发放脉冲后的膜电势。
令 $\theta^l$ 表示脉冲神经元的放电阈值， $\boldsymbol{s}^l(t)$ 表示在时刻 $t$ 第 $l$ 层中所有脉冲神经元发放的脉冲，假设神经元放电后传出的脉冲大小等于阈值 $\theta^l$ ，令 $x^l(t)=s^l(t) \theta^l$ 表示第 $l$ 层的神经元向下一层传递的脉冲信息, $\boldsymbol{W}^l$ 表示第 $l$ 层神经元和第 $l - 1$ 层神经元之间的权值。
ANN转SNN：在ANN中有
$\boldsymbol{a^l} = h(\boldsymbol{W}^l\boldsymbol{a}^{l-1}) \tag{1}$
，其中 $h (.)$ 表示ReLU激活函数。在SNN中有
$\boldsymbol{v}^l(t) - \boldsymbol{v}^l(t-1) = \boldsymbol{W}^l\boldsymbol{x}^{l-1}(t) - \boldsymbol{s}^l(t)\theta^l \tag{2}$
通过将等式2从time step1累加到T，可以得到：
$\frac {\boldsymbol{v}^l(t) - \boldsymbol{v}^l(0)}{T} = \frac{\boldsymbol{W}^l \sum_{i=1}^T\boldsymbol{x}^{l-1}(i)}{T} - \frac{\sum_{i=1}^T\boldsymbol{s}^l(i)\theta^l}{T} \tag{3}$
使用 $\phi^{l-1}(T)=\frac{\sum_{i=1}^T \boldsymbol{x}^{l-1}(i)}{T}$ 表示从时刻0到T内的平均突触后电势，可以得到：
$\phi^l(T) = \boldsymbol{W}^l \phi^{l-1}(T) - \frac {\boldsymbol{v}^l(t) - \boldsymbol{v}^l(0)}{T} \tag{4}$
等式4描述了相邻层之间脉冲神经元的平均突触后电势（ $\phi$ ）的关系。由于 $\phi(T) \geq 0$ ，如果让初始膜电势 $\boldsymbol{v}^l(0)=0$ 并且忽略掉 $\frac{\boldsymbol{v}^l(T)}{T}$ ，当令T（time step）足够大时等式4就几乎等同于等式1，即此时的SNN公式和ANN公式相等。然而太大的time step会导致很高的推理时间，从而影响SNN的实际应用，因此本文旨在在极低的延迟(time step)下实现高性能的ANN转换SNN。

转换误差分析

本部分详细分析ANN转换SNN中每一层存在的一些误差，此时假设ANN和SNN从前一层接收到的输入相等，即假设 $\boldsymbol{a}^{l-1} = \boldsymbol{\phi}^{l-1}$ ，然后开始分析第 $l$ 层存在的误差。

为了简化后续公式，使用 $\boldsymbol{z}^l = \boldsymbol{W}^l\boldsymbol{\phi}^{l-1}(T) = \boldsymbol{W}^l\boldsymbol{a}^{l-1}$ 表示第 $l - 1$ 层传递至 $l$ 层的输入（ANN和SNN均如此）。
绝对转换误差 = 转换后的SNN的输出减去原始ANN的输出：
$\boldsymbol{Err}^l = \boldsymbol{\phi}^l(T) - \boldsymbol{a}^l = \boldsymbol{z}^l - \frac {\boldsymbol{v}^l(t) - \boldsymbol{v}^l(0)}{T} - h(\boldsymbol{z}^l) \tag{5}$
从等式5中可以看到如果 $\boldsymbol{z}^l > 0$ 且 $\boldsymbol{v}^l(t) - \boldsymbol{v}^l(0) \ne 0$ 则转化误差就不为0。事实上，转换误差由以下三个因素造成：

Clipping error：
由于脉冲神经元的阈值为 $\theta^l$ ，所以SNN的输出 $\phi^l(T)= \frac{\sum_{i=1}^T \boldsymbol{x}^l(i)}{T} = \frac{\sum_{i=1}^T \boldsymbol{s}^l(i)}{T}\theta^l \in [0,\theta^l]$ ，但是ANN的输出 $\boldsymbol{a}^l \in [0,\boldsymbol{a}^l_{max}]$ ，其中 $\boldsymbol{a}^l_{max}$ 表示 $\boldsymbol{a}^l$ 的最大值。如图1a所示， $\boldsymbol{a}^l$ 可以通过下式映射到 $\phi^l(T)$ ：
$\phi^l(T) = clip(\frac{\theta^l}{T} \lfloor \frac{a^lT}{\lambda^l} \rfloor, 0, \theta^l). \tag{6}$
这里的 $c l i p (x, a, b)$ 函数表示当 $x < a$ 时结果为a， $x > b$ 时结果为b, $\in [a,b]$ 时结果为x， $\lfloor . \rfloor$ 表示向下取整， $\lambda^l$ 表示将 $a^l$ 映射为 $\theta^l$ 的 $a^l$ 的值。在ANN中的位于 $\lambda^l$ 和 $a^l_{max}$ 之间的激活值都被映射为SNN中的 $\lambda^l$ ，这样造成的转换误差称为clipping error。
Quantization error（flooring error）：
输出脉冲 $s^l(t)$ 是离散事件，因此 $\phi^l(T)$ 在经过 $\frac {\theta^l}{T}$ 量化后也是离散的，当把 $a^l$ 映射为 $\phi^l(T)$ 时，不可避免地存在着一些量化误差。例如图1a中所示，ANN中位于 $[\frac{\lambda^l}{T}, \frac{2\lambda^l}{T}]$ 之间的激活值在SNN中都被映射为 $\frac{\theta^l}{T}$ 。
Unevenness error：
不均匀误差是由于输入脉冲的不均匀造成的。同样的脉冲数量，如果脉冲到达的时间不一样，产生的输出也不一样，可能会产生比预期更多或更少的输出。
举个例子：
假设在源ANN中第 $l - 1$ 层中的两个神经元和第 $l$ 层一个神经元的连接权值分别是2和-2，第 $l - 1$ 层两个神经元的输出是[0.6, 0.4]。在转换后的SNN中假设 $l - 1$ 层的两个脉冲神经元在5个time step内(time step=5)分别发放3个脉冲和2个脉冲，令阈值 $\theta^l =1$ 。因此有 $\phi^{l-1}(T) = [0.6, 0.4]$ 。即使 $\phi^{l-1}(T) = a^{l-1}$ 且ANN和SNN中的权值相等 $\phi^l(T)$ 也会随着脉冲到达的时间不同而变化。ANN中的 $a^l = [2, -1][0.6, 0.4]^T = 0.4$ ，对于SNN有如图1b-d所示的三种情况。
如果两个权值为2和-2的神经元发放脉冲时间分别为 $t = 1, 3, 5$ 和 $t = 2, 4$ ，突触后神经元将会在 $t = 1, 3$ 时刻发放脉冲，且 $\phi^l(T)=0.4=a^l$ 。然而如果两个神经元发放脉冲时间分别为 $t = 1, 2, 3$ 和 $t = 4, 5$ ，突触后神经元将会在 $t = 1, 2, 3, 4$ 时刻发放四个脉冲且 $\phi^l(T)=0.8 > a^l$ ;如果两个神经元发放脉冲时间分别为 $t = 3, 4, 5$ 和 $t = 1, 2$ ，突触后神经元将只会在 $t = 5$ 时刻发放一个脉冲且 $\phi^l(T)=0.2 < a^l$ 。

上述三种误差中存在一些相互依赖关系，特别是如果 $v^l(T) \in [0, \theta^l]$ ，不均匀误差会退化为量化误差，因此假设 $v^l(T) \in [0, \theta^l]$ 时可以忽略掉不均匀误差的影响从而估计SNN的激活函数。在转换后的SNN中估计输出值 $\phi^l(T)$ 可以使用 $c l i p (.)$ 和 $f l o o r (.)$ 函数来表示：
$\phi^l(T) \approx \theta^lclip(\frac{1}{T} \lfloor \frac{z^lT+v^l(0)}{\theta^l} \rfloor, 0, 1). \tag{7}$
详细推导过程在论文的附录中，感兴趣的朋友可以去查看原始论文。
根据等式7，estimated conversion error $\widetilde{Err}^l$ 可以由下式得出：
$\widetilde{Err}^l = \theta^lclip(\frac{1}{T} \lfloor \frac{z^lT+v^l(0)}{\theta^l} \rfloor, 0, 1) - h(z^l) \approx Err^l. \tag{8}$

优化的ANN转换SNN

quantization clip-floor activation function

由等式8可以得出，如果将ANN中的ReLU函数替换为带有一定量化步长L的clip-floor函数是不是能够消除掉在time step T=L时刻的转换误差呢？从而能够解决掉低时延的性能退化问题。
由上述思路，论文作者提出了quantization clip-floor activation function去训练ANN：
$a^l = h(z^l) = \lambda^l clip(\frac{1}{L} \lfloor \frac{z^lL}{\lambda^l} \rfloor,0, 1) \tag{9}$
其中的超参数 $L$ 表示ANN中的量化步长（quantization step），而 $\lambda^l$ 是可训练的参数，决定着将ANN中 $a^l$ 映射到SNN中 $\phi^l(T)$ 的最大值对应的最大值（比较绕，其实说白了就是 $f(\lambda^l) = \phi^l(T)_{max}$ ）。使用这样一个新的激活函数，满足以下几个条件时ANN和转换后的SNN之间的转换误差为0：

条件：量化步长L=time step T； $\theta^l = \lambda^l$ ； $v^l(0)=0$
缺陷：在 $\neq T$ 时误差不一定为0。

进一步改进的quantization clip-floor-shift activation function

基于以上缺陷，论文作者又提出了进一步改进的quantization clip-floor-shift activation function：
$a^l = \hat h(z^l) = \lambda^lclip(\frac{1}{L} \lfloor \frac{z^lL}{\lambda^l}+ \varphi \rfloor,0, 1). \tag{10}$
和式9相比，式10多了一个超参数向量 $\varphi$ 来控制激活函数的偏移（shift）。当 $\neq T$ 时虽然不能保证转换误差为0，但是可以估计转换误差的期望值。相似于Deng & Gu, 2020¹，这里同样假设 $z^l_i$ 服从一定的均匀分布，当满足以下条件时，可以证明当源ANN中的 $\varphi= \frac{1}{2}$ 时对于任意的T和L，转换误差的期望值接近于0。

条件： $\theta^l = \lambda^l$ ； $v^l(0)=\theta^l \varphi$ 。
证明过程在论文附录中给出，感兴趣的朋友可以去查看原始论文。
结果表示当 $\varphi= \frac{1}{2}$ 时即使 $\neq T$ 平均转换误差也接近于0，从而能够在极低的time step内实现高性能的转换后的SNN。

用于带有quantization clip-floor-shift activation function的训练算法

训练带有quantization clip-floor-shift activation function的ANN也是一个问题。在训练时，论文作者采用straight-through estimatorBengio et al., 2013²作为floor函数的导数，即令 $\frac{d\lfloor x \rfloor}{dx} = 1$ 。整体的导数规则如下式17所示：训练梯度
其中的 $z^l_i$ 表示 $z^l$ 的第 $i$ 个元素。在训练ANN中使用该梯度结合随机梯度下降算法优化即可。

实验部分

作者使用VGG-16、ResNet-18、ResNet-20等网络结构在CIFAR-10、CIFAR-100和ImageNet数据集上做了实验证明了该方法的优越性。另外表示随着L的增加，转换后的SNN在time step较小时的精度也会随之下降，即L过大过小都不行，推荐的L为4或8.

部分参考文献

本文由CSDN-lan人啊原创，转载请注明！

Shikuang Deng and Shi Gu. Optimal conversion of conventional artificial neural networks to spiking neural networks. In International Conference on Learning Representations, 2020. ↩︎
Yoshua Bengio, Nicholas L´eonard, and Aaron Courville. Estimating or propagating gradients through stochastic neurons for conditional computation. arXiv preprint arXiv:1308.3432, 2013. ↩︎