SNN系列｜学习算法篇(2)SpikeProp

最新推荐文章于 2024-08-19 19:17:30 发布

Tianlong Lee

最新推荐文章于 2024-08-19 19:17:30 发布

阅读量5.6k

点赞数 9

分类专栏： Spiking Neuron Network 文章标签：人工智能算法机器学习

本文链接：https://blog.csdn.net/ly18846826264/article/details/105359305

版权

Spiking Neuron Network 专栏收录该内容

14 篇文章

订阅专栏

SpikeProp

论文传送门

SpikeProp算法可以认为是SNN里BP的最早版本，它可以处理多层神经网络，但只能是单输入单输出，SpikeProp的特点是对脉冲发放的时间进行误差最小化，核心也就是下面的公式，其中 $t_j^a$ 表示神经元第一次发放脉冲的时间。
$E=\frac{1}{2} \sum_{j \in J}\left(t_{j}^{\mathrm{a}}-t_{j}^{\mathrm{d}}\right)^{2}$

SRM

SpikeProp算法使用该神经元模型的一个原因是其表现形式是解析的，在以后求解脉冲发放时间与膜电势关系时可以通过数学关系进行求解，而使用LIF等模型无法进行求导等操作。

在这里插入图片描述

原文中使用的SpikeProp算法是多延时模型，即两层神经元之间有多个突触，且时延不同。
$x_{j}(t)=\sum_{i \in \Gamma_{j}} \sum_{k=1}^{m} w_{i j}^{k} y_{i}^{k}(t)\\y_{i}^{k}(t)=\varepsilon\left(t-t_{i}-d^{k}\right)\\\varepsilon(t)=\frac{t}{\tau} \mathrm{e}^{1-t / \tau}$
$t_i$ 为神经元i膜电势第一次越过常数阈值时的时间。

（一度怀疑原文中的模型不能称之为SRM，因为SRM使用的是动态阈值，这里更像是连续形式的LIF模型）

梯度计算

对符号进行说明：输入层H，隐藏层I，输出层J

类似经典BP算法，这里使用链式求导法则，对输出层权重进行更新
$\Delta w_{i j}^{k}=-\eta \frac{\partial E}{\partial w_{i j}^{k}}=-\eta \frac{\partial E}{\partial t_j}\frac{\partial t_j}{\partial w_{i j}^{k}}=-\eta (t_j^a - t_j^d))\frac{\partial t_j}{\partial w_{i j}^{k}}$
整个算法的难点也就落在了如何求解 $\frac{\partial t_j}{\partial w_{i j}^{k}}$ ，因为脉冲发放时刻是在膜电势达到阈值这个条件定义的，我们可以认为 $t_j$ 是膜电势的一个非线性函数，当然它无法写出显式的公式。

线性假设

因为我们关注的是脉冲发放时刻，因此，不妨假设在脉冲发放时刻的小邻域内，二者呈线性关系。当膜电势增加 $\delta x_j$ 时，相应的脉冲发放时间应提前（减小） $\delta t_j^a$ 。另一方面，观察 $x_j$ 与仿真时间 $t$ 的关系，在较小邻域内，其斜率为 $\alpha = \frac{\partial x_j (t)}{\partial t}(t_j^a)$ 。

在这里插入图片描述

显然我们可以得得到
$\frac{\partial t_{j}}{\partial x_{j}(t)}\left(t_{j}^{a}\right)=\left.\frac{\partial t_{j}\left(x_{j}\right)}{\partial x_{j}(t)}\right|_{x_{j}=\vartheta}=\frac{-1}{\alpha}=\frac{-1}{\partial x_{j}(t) / \partial t\left(t_{j}^{a}\right)}=\frac{-1}{\sum_{i, l} w_{i j}^{l}\left(\partial y_{i}^{l}(t) / \partial t\right)\left(t_{j}^{a}\right)}$

数学推导

文献[3]证明了即使不使用线性假设，上述公式也是正确的。

求解 $\frac{\partial t_j}{\partial w_{i j}^{k}}$ ，其实可以看成是当 $\omega_{ij}^k$ 变化 $\delta \omega_{ij}^k$ 时，脉冲发放时刻如何变化。权重变化势必造成膜电势变化
$\delta x_j(t) = \delta \omega _{ij} \epsilon(t-t_i^d-d_i^k)$
再来看看权重变化前后的脉冲发放时刻的定义
$before:\quad x(t_j^a) = \vartheta\\after:\quad x_j(t_j^a + \delta t_j^a) + \delta x_j(t_j^a + \delta t_j^a)=\vartheta$
由上述公式其实也能看出要写出 $t_j$ 与 $x_j$ 的显式关系是不可能的。因为神经元模型的定义是连续的，一阶可导的，上述公式可以展开
$x_{j}\left(t_{j}^{a}\right)+\delta t_{j}^{a} \frac{\partial x_{j}}{\partial t}\left(t_{j}^{a}\right)+\delta x_{j}\left(t_{j}^{a}\right)+\delta t_{j}^{a} \frac{\partial \delta x_{j}}{\partial t}\left(t_{j}^{a}\right)+o\left(\delta t_{j}^{a}\right)=\vartheta\\\implies \delta t_{j}^{a} \frac{\partial x_{j}}{\partial t}\left(t_{j}^{a}\right)+\delta x_{j}\left(t_{j}^{a}\right)+\delta t_{j}^{a} \frac{\partial \delta x_{j}}{\partial t}\left(t_{j}^{a}\right)+o\left(\delta t_{j}^{a}\right)=0$
由本节第一个公式可知，当 $\delta \omega_{ij}\rightarrow 0$ 时， $\frac{\partial \delta x_{j}}{\partial t}\left(t_{j}^{a}\right)\rightarrow 0$ ，因变量 $\delta t_j^a \rightarrow 0$ ，于是上式可简化如下：
$\delta t_{j}^{a} \frac{\partial x_{j}}{\partial t}\left(t_{j}^{a}\right)+\delta x_{j}\left(t_{j}^{a}\right)=0\\\implies \lim _{\delta w_{i j} \rightarrow 0 } \frac{\delta x_{j}\left(t_{j}^{a}\right)}{\delta t_{j}^{a}}=-\frac{\partial x_{j}}{\partial t}\left(t_{j}^{a}\right)$
进而我们可以得到同样的结论
$\frac{\partial t_{j}^{a}}{\partial w_{i j}}=\lim _{\delta w_{i j} \rightarrow 0} \frac{\delta t_{j}^{a}}{\delta w_{i j}}=\frac{\partial x_{j}}{\partial w_{i j}}\left(t_{j}^{a}\right)\left(-\left\{\frac{\partial x_{j}}{\partial t}\left(t_{j}^{a}\right)\right\}^{-1}\right)$

反向传播

解决了 $\frac{\partial t_j}{\partial w_{i j}^{k}}$ 的问题，对输出层
$\delta_{j} \equiv \frac{\partial E}{\partial t_{j}^{\mathrm{a}}} \frac{\partial t_{j}^{\mathrm{a}}}{\partial x_{j}\left(t_{j}^{\mathrm{a}}\right)}=\frac{\left(t_{j}^{\mathrm{d}}-t_{j}^{\mathrm{a}}\right)}{\sum \limits_{i \in \Gamma_{j}} \sum \limits_{l} w_{i j}^{l}\left(\partial y_{i}^{l}\left(t_{j}^{\mathrm{a}}\right) / \partial t_{j}^{\mathrm{a}}\right)}\\\Delta w_{i j}^{k}\left(t_{j}^{\mathrm{a}}\right)=-\eta \frac{y_{i}^{k}\left(t_{j}^{\mathrm{a}}\right)\left(t_{j}^{\mathrm{d}}-t_{j}^{\mathrm{a}}\right)}{\sum\limits_{i \in \Gamma_{j}} \sum\limits_{l} w_{i j}^{l}\left(\partial y_{i}^{l}\left(t_{j}^{\mathrm{a}}\right) / \partial t_{j}^{\mathrm{a}}\right)}$
对隐藏层有
$\delta_{i} = \frac{\partial t_{i}^{\mathrm{a}}}{\partial x_{i}\left(t_{i}^{\mathrm{a}}\right)} \frac{\partial E}{\partial t_{i}^{\mathrm{a}}} =\frac{\partial t_{i}^{\mathrm{a}}}{\partial x_{i}\left(t_{i}^{\mathrm{a}}\right)} \sum_{j \in \Gamma^{i}} \frac{\partial E}{\partial t_{j}^{\mathrm{a}}} \frac{\partial t_{j}^{\mathrm{a}}}{\partial x_{j}\left(t_{j}^{\mathrm{a}}\right)} \frac{\partial x_{j}\left(t_{j}^{\mathrm{a}}\right)}{\partial t_{i}^{\mathrm{a}}} =\frac{\partial t_{i}^{\mathrm{a}}}{\partial x_{i}\left(t_{i}^{\mathrm{a}}\right)} \sum_{j \in \Gamma^{i}} \delta_{j} \frac{\partial x_{j}\left(t_{j}^{\mathrm{a}}\right)}{\partial t_{i}^{\mathrm{a}}}\\=\frac{\partial t_{i}^{\mathrm{a}}}{\partial x_{i}\left(t_{i}^{\mathrm{a}}\right)} \sum_{j \in \Gamma^{i}} \delta_{j}\sum_{k} w_{i j}^{k} \frac{\partial y_{i}^{k}\left(t_{j}^{\mathrm{a}}\right)}{\partial t_{i}^{\mathrm{a}}}=\frac{\sum \limits_{j \in \Gamma^{i}} \delta_{j}\left\{\sum\limits_{k} w_{i j}^{k}\left(\partial y_{i}^{k}\left(t_{j}^{\mathrm{a}}\right) / \partial t_{i}^{\mathrm{a}}\right)\right\}}{\sum\limits_{ h \in \Gamma_{i}} \sum\limits_{l} w_{h i}^{l}\left(\partial y_{h}^{l}\left(t_{i}^{\mathrm{a}}\right) / \partial t_{i}^{\mathrm{a}}\right)}\\\Delta w_{h i}^{k}=-\eta y_{h}^{k}\left(t_{i}^{\mathrm{a}}\right) \delta_{i}=-\eta \frac{y_{h}^{k}\left(t_{i}^{\mathrm{a}}\right) \sum\limits_{j}\left\{\delta_{j} \sum\limits_{k} w_{i j}^{k}\left(\partial y_{i}^{k}\left(t_{j}^{\mathrm{a}}\right) / \partial t_{i}^{\mathrm{a}}\right)\right\}}{\sum\limits_{n \in \Gamma_{i}} \sum\limits_{l} w_{n i}^{l}\left(\partial y_{n}^{l}\left(t_{i}^{\mathrm{a}}\right) / \partial t_{i}^{\mathrm{a}}\right)}$
算法更新过程如下：

在这里插入图片描述

编码

对于较大的数据集，为了保证每个输入只有一个脉冲，SpikeProp使用GRF编码，详见SNN系列编码部分。

代码

略

参考

[1] Error-backpropagation in temporally encoded networks ofspiking neurons

[2] 脉冲时序编码的有监督脉冲神经网络算法研究

[3] A remark on the error-backpropagation learning algorithm for spiking neural networks