【论文笔记】Incorporating Learnable Membrane Time Constant to Enhance Learning of SNN

最新推荐文章于 2024-07-04 16:27:01 发布

uknoweve

最新推荐文章于 2024-07-04 16:27:01 发布

阅读量521

点赞数 3

文章标签：深度学习 pytorch 神经网络人工智能

本文链接：https://blog.csdn.net/uknoweve/article/details/126702485

版权

写在前面

本文是对论文Incorporating Learnable Membrane Time Constant to Enhance Learning of Spiking Neural Networks的阅读笔记，本文架构与原论文一致。文末是本人的一些想法。
如遇SNN相关概念不明白，见SpikingJelly文档。

ABSTRACT

讲述了本文做的工作，大概两点：

让膜时间常数（ membrane time constant）成为可学习的参数，而不是预置的超参数。
在SNN中使用最大池化，而不是通常认为的平均池化。最大池化具有更多优势。

1. INTRODUCTION

首先，大概讲述了一下SNN的概况。
其次，论述将膜时间参数作为训练参数的优点：符合生物脑神经元的特点、增强神经元表达力。
最后，讲述本文做的三点贡献：

使用PLIF（也就是带参数的LIF神经元）作为神经元，基于反向传播进行训练。这提高了模型的鲁棒性和学习速度。
重新评估池化方法。证明最大池化性能不比平均池化差，还能降低计算成本（二进制位运算）、保留神经元放电的异步性（下文详细说明）。
在一些数据集上检验本文的模型，效果很好。

2. RELATED WORKS

讲述了一些基于SNN的训练方法和模型等，可做学习和了解用，不加赘述。

3. METHODS

3.1. LIF模型

描述LIF神经元的阈下动力学的微分方程为：

V就是神经元的当前电压；X是输入；V_rest（或者说V_reset，论文中认为二者等价）是神经元的静息电位值，也就是说当输入X为0时，电压V的稳态值是静息电位。

3.2. 突触权值和膜时间常数的影响

从数学公式的角度更好理解。
突触权值，可以理解为上述方程（1）中的X(t)，也就是对神经元的输入；膜时间参数，就是方程（1）中的τ。
所以这里实质就是探讨，改变X(t)、改变τ分别会对方程产生什么影响。
（学过电路理论的朋友，应该更懂是什么意思，电容的充电放电方程）
论文中举了详细的例子，还画出了图表，来探讨这个问题，详见原论文。
主要结论就是τ影响神经元的“敏感度”，这从上述微分方程上很好理解。

3.3. Parametric LIF模型

描述PLIF神经元的阈下动力学的微分方程，还是方程（1），只不过我们现在把τ看做变量。
特点如下：同层神经元τ相同，不同层神经元τ不同。这是因为，想操纵同层的神经元比较难，所以训练是layer-level的。

接下来是描述神经元行为的方程，包括充电、释放脉冲、脉冲后电压变化。采取差分方程的形式（即微分方程的离散版），如下：
在这里插入图片描述
以及

这里的H和V都是电压值，而V特指“脉冲后电压”，所以引入H来避免混淆。
方程（2）见方程（5）。
方程（5）其实就是方程（1）的离散版本（差分方程），也就是描述神经元在没达到阈值（threshold）时怎么充电和漏电。
方程（3）描述如何释放脉冲，这个函数是阶跃函数。意思是如果H比V_th（也就是阈值）高，则值为1（释放脉冲），反之值为0（不释放脉冲）。
方程（4）描述脉冲后，神经元电压变化。若释放了脉冲，即S为1，则电压变为H；若未释放脉冲，即S为0，则电压变为V_reset。总之，意思是没脉冲就继续充电漏电，释放了脉冲就变回静息电位。

接下来，在实际训练时，如果直接训练方程（5）的τ参数，会很困难（因为在分母上）。所以令τ=1/k(a)，而k(a)是以a为参数的sigmoid函数，这样就变成了训练参数a。
为什么这样做呢？则需要数学上的解释：
方程（5）作为方程（1）的离散近似，只有在τ>1时才是有效近似，这是因为方程（1）的dt是无穷小的时间片（t的微分），而方程（5）的时间片大小为Δt=t-(t-1)=1，所以需要τ>Δt。
而规定τ=1/k(a)恰可以满足τ的值域为（1，正无穷）。

3.4. 从RNN的角度解释LIF和PLIF

当规定静息电位V_reset为0时，方程（5）可写做
在这里插入图片描述
因为方程（5）本身就是描述充电和漏电的，那么从方程（7）来看，两个加数项：

第一项是漏电，也就是t时刻的电压比t-1时刻的电压更小。变化倍率为1-1/τ。
第二项是充电，从当前输入中获取电压。倍率为1/τ。
从权重角度看，1-1/τ和1/τ是权重，和为1，τ可以调节两项权重的占比。
从RNN角度看，漏电过程是遗忘过程，充电过程是记忆过程。更多相关见LSTM网络。

3.5. Network Formulation

讲述了网络架构。
重点是：

第一层卷积和神经元激活，作为编码器，而不是用传统的泊松编码器。
突触连接（即卷积层和全连接层），都是无状态的，也就是说仅仅做线性变换而已。而只有神经元是有状态的，因为数值和时间有关。

3.6. 最大池化

以往研究认为最大池化会丢失信息。
在论文模型中，池化层在神经元之后，也就是说是对脉冲（非0即1的二进制信息）进行池化。如果采用最大池化，那么只有产生脉冲（值为1）的神经元的信息会经过池化而到达下一层，而没产生脉冲的神经元就不会与下一层进行连接（这在论文中被称为“赢家通吃”）。（看上去这样的设计比较符合生物学）
另外，释放脉冲后的神经元短时间内难以再次脉冲，所以神经元释放脉冲不会是同步的，而是异步的。举例来说，3个突触前神经元a,b,c，1个突触后神经元d，a,b,c异步释放脉冲，那么采取最大池化时，d近似于时时刻刻都在被充电，可以快速达到阈值。这样模型时间域的拟合能力不强（我暂时不懂），而且看上去也比较合理。
而且，最大池化传递的信息都是二进制的，可以采用位运算，平均池化却要进行浮点数运算，显然前者对硬件更友好。

依我看，最大池化的优点就是：符合生物学（产生脉冲的才连接到下一层，反之不连接）；运算优势。

3.7. Training Framework

暂略

4. Experiments

略

5. Conclusion

PLIF，最大池化的优势。

写在后面

我学到了什么：

描述神经元行为的严谨数学公式，PLIF中τ=1/k(a)的设计及其原因。
充电与漏电的平衡，遗忘与记忆的平衡。
最大池化的探讨与优点（主要）。

Brain Storm：

SNN的一大特点，就是部分信息以二进制形式（脉冲）传递，基于此我们才有了使用最大池化的机会。或许可以利用该特点做更多事情。
论文中规定V_rest与V_reset一致，其实可以认为，V_rest是缓慢漏电渐渐回到的静息电位，V_reset是释放脉冲后立刻跃变回静息电位。在生物学中，后者这个过程，是存在过极化的，也就是生物体内V_reset应该比V_rest低一点。如果SNN中也这样设计，会达到什么效果呢？

uknoweve

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】Incorporating Learnable Membrane Time Constant to Enhance Learning of SNN

本文是对论文的阅读笔记，本文架构与原论文一致。文末是本人的一些想法。如遇SNN相关概念不明白，见SpikingJelly文档。
复制链接

扫一扫