今天晚上有点时间就想着把之前下载下来但是还没来得及读的一篇有关于脉冲神经网络的文章拿来读一下,本文主要是记录论文的阅读内容,感兴趣的话可以参考一下,如果想要进一步了解详情可以自行移步阅读原英文论文即可,地址在这里,如下所示:
摘要
脉冲神经网络(SNNs)以其生物启发的操作机制和能量效率而闻名,反映了人脑的神经活动。然而,SNNs在平衡能量效率与高级任务的计算需求方面面临挑战。我们的研究引入了RTFormer,这是一种将重参数化时间滑动批归一化(TSBN)嵌入到脉冲Transformer框架中的新型架构。这一创新在推理过程中优化了能量使用,同时确保了强大的计算性能。RTFormer的核心在于其重参数化卷积和TSDN的集成,实现了计算能力和能量节约之间的平衡。我们的实验结果突显了其有效性,RTFormer在标准数据集如ImageNet(80.54%)、CIFAR-10(96.27%)和CIFAR-100(81.37%)上取得了显著的准确率,并在神经形态数据集如CIFAR10-DVS(83.6%)和DVS128(98.61%)上表现出色。这些成就展示了RTFormer的多功能性,并确立了其在能量高效神经计算领域的潜力。
关键词:SNNs,LIF,Transformer,归一化
一、引言
受人类大脑启发的深度人工神经网络(ANNs)在计算机视觉[1, 2]和自然语言处理[3, 4, 5, 6]等领域取得了显著成功。然而,这些成就伴随着巨大的计算成本。ANNs消耗的能量大约是人类大脑的12倍[7],使得高能耗模型难以部署到资源受限的设备上,例如智能手机和物联网设备。利用大脑的高效计算范式在这些平台上创建低能耗神经网络具有重要价值。
为什么选择SNN? 脉冲神经网络(SNNs)在计算领域中以其能量效率而著称。尽管在结构上与传统ANNs相似,SNNs通过离散二进制事件处理数据的方式独特。零表示静止状态,而一表示神经元的激发,即传递信息的脉冲。这种二进制数据处理导致网络中的稀疏激活,确保只有在必要时才消耗能量。这种效率不仅是偶然的,而且是SNNs的核心特征,使其能够以ANNs所需能量的一小部分运行,从而满足了可持续和节能计算的需求。
如何设计一个更节能的推理结构? 解决如何设计一个更节能的推理结构的问题,促使我们提出了时空核心的概念。空间核心通过采用结构重参数化卷积简化了卷积过程,显著减少了推理过程中的计算负担,同时不损害学习特征的完整性。同时,时间核心引入了时间滑动批归一化(TSBN)的概念,将批归一化过程定制到数据的时间方面,确保网络对现实世界场景中固有的时间动态保持响应。这两个核心共同构成了一个强大的框架,不仅在能量效率上表现出色,而且在数据处理中保持高保真度,使其成为在神经形态硬件等能量受限环境中部署的理想候选。
时空核心的意义是什么? 时空核心不仅仅是一项技术创新;它是一种概念上的转变,旨在创建与人脑能量效率相当的神经网络。通过从自然界最复杂的计算机器中汲取灵感,我们的目标是弥合深度学习模型的计算能力与它们运行的设备的能量限制之间的差距。这种空间效率和时间精度的协同作用为下一代神经网络模型铺平了道路,这些模型既强大又可持续,准备部署在我们生活的日益互联和移动的世界中。
我们的贡献总结如下:
-
我们引入了时空核心,这是结构重参数化卷积(空间)和动态时间批归一化(时间)的和谐融合,旨在提供增强的空间效率和时间适应性,从而将神经形态计算提升到新的处理高度。
-
我们引入了TSSN,这是一种巧妙地将批归一化与数据的时间维度对齐的机制,允许在顺序输入中进行精确的、上下文敏感的归一化,从而增强神经网络的时间一致性和预测性能。
-
广泛的实验证实了所提出架构相对于神经形态和非神经形态数据集上最先进的SNNs的优越性,突显了其在推进时空数据处理中的实际意义。
二、相关工作
A. SNN学习方法
脉冲神经网络(SNNs)被誉为第三代神经网络模型,因其生物逼真度、内在的事件驱动计算和在神经形态平台上的能量效率[8]。这些特性激发了SNN研究的激增,使其成为人工神经网络(ANNs)的有力竞争者。
SNNs和ANNs之间的根本区别在于使用脉冲神经元作为基本计算单元,这促进了生物可解释性和处理时间信息的能力[9, 10, 11, 12, 13]。ANNs以其强大的梯度反向传播训练框架而著称,而SNNs主要使用两种训练范式:ANN到SNN的转换和使用代理梯度的直接训练。转换方法[14, 15, 16]涉及将预训练ANN的ReLU层替换为脉冲神经元,需要微调超参数以保持准确性。然而,这种方法受限于较长的转换时间步长和源ANN的架构刚性。为了规避这些限制,[9]使用代理梯度来促进直接SNN训练,在最小的时间间隔内实现了高精度。这些方法在各个领域取得了突破,Spiking-Yolo[17]和EMS-yolo[18]在目标检测中开辟了道路,Spiking-UNet[19]在语义分割中取得了进展,SpikingGPT[20]和SpikingBert[21]在语言建模中崭露头角,SpikingGAN[22]引入了生成能力。对于基于图的学习,SpikingGCN[23]和SpikingGAT[24]展示了潜力。神经形态芯片的出现,如TrueNorth[25]、Loihi[26]和Tianjic[27],进一步强调了SNNs在近期计算生态系统中成为主流的潜力。
B. SNNs中的Transformer架构
得益于ANNs中已建立和有效的网络架构,SNNs可以利用它们构建高性能模型,如[28, 29, 30, 7]。注意力机制是目前ANNs中最有效的方法,也已集成到SNNs中,包括Transformer这一经典网络架构的实现。Spikformer[31]是SNNs中首个直接训练的Transformer。它采用了一种新的脉冲形式的自注意力机制,称为脉冲自注意力(SSA)。然而,当前Spikformer的配置,包括残差[32]连接,仍然涉及非脉冲计算。因此,脉冲驱动的[33]Transformer提出了新的结构,以保持脉冲计算。脉冲驱动Transformer通过引入脉冲驱动自注意力(SDSA)解决了非脉冲计算的问题。注意力机制在SNNs中的集成促进了Transformer架构适应SNN范式。然而,之前的实现并未充分解决推理过程中遇到的约束。为此,我们提出了RTFormer,利用重参数化策略确保SNNs在推理过程中受益于减少的参数复杂性,从而提高部署效率。
C. SNNs中的批归一化
在SNNs领域,批归一化(BN)技术的集成对于缓解训练动态中的挑战至关重要,例如梯度消失或爆炸问题。一种创新的方法,称为时间批归一化(BNTT),由[34]提出。BNTT独特地在每个时间步独立计算BN统计量和参数,增强了网络对瞬时变化的适应性。然而,这种方法可能无法充分考虑输入脉冲序列中的时间相关性,可能忽略关键的顺序信息。为了解决这一限制,[35]引入了依赖于阈值的批归一化(tdBN)方法。该技术在时间维度上整合BN统计量和参数,从而在保持传统BN优势的同时,适应SNNs固有的时间结构。通过在时间上聚合数据,tdBN避免了SNN训练中常见的梯度不稳定性。进一步扩展这些发展,[36]提出的时间效应批归一化(TEBN)方法通过沿时间轴合并数据以共享BN统计量,并引入时间动态到BN过程中,通过应用不同的缩放权重。该方法捕捉了基本的时间动态,从而提供了与SNNs时间特性更一致的归一化过程。我们引入了TSSN,以选择性地利用时间域中累积的前突触输入,与LIF神经元的特性一致。
三、方法
我们引入了RTFormer,这是一种将Transformer架构与重参数化和时间滑动批归一化(TSBN)相结合的新型融合。本节将首先简要概述脉冲神经元的工作原理,然后深入探讨时空核心和脉冲引导注意力(SGA)模块。最后,我们将讨论能量消耗方面。
A. 预备知识
在SNNs中,脉冲神经元根据阈值控制脉冲的释放。在本文中,我们使用LIF[37]神经元,其工作方式如下:
B. 时空核心
在SNNs的探索中,我们创新的设计称为“时空核心”,如图III-A所示,解决了空间和时间处理的细微差别。这一复杂框架分为两个协同组件:“空间核心”和“时间核心”。每个核心独特地适应于管理数据处理的各个方面——前者专注于空间特征,后者专注于时间动态。
空间核心。 “空间核心”反映了结构重参数化的原则,类似于人工神经网络(ANNs)中的方法。在这里,我们使用深度可分离卷积(DW-Conv),这些卷积经过战略性重参数化,以减少推理过程中模型的复杂性。这种创新安排涉及具有不同核大小(特别是1x1和3x3)的并行DW-Conv层,增强了空间特征提取效率。从四个连续的3x3层到三个“空间核心”单元的转变标志着在空间细节捕捉方面的飞跃,同时保持了精简的模型结构。
在图III-A所示的创新架构中,STCore由五个并行分支组成,每个分支为网络的复合函数贡献独特的卷积参数。值得注意的是,其中一个分支——身份分支——有效地作为1x1卷积,使用身份矩阵作为其核。这种集成确保了每个分支的卷积特性得到独特表示。这些不同卷积影响的融合在公式4中简洁地捕捉到:
时间核心。 相反,“时间核心”将时间滑动批归一化(TSBN)与脉冲神经元的可调阈值集成在一起。这种集成是我们方法的关键方面,与SNNs固有的时间信息处理动态相一致。通过将TSBN参数直接纳入神经元的阈值机制(表示为VthVth),我们的模型在处理时间序列方面获得了鲁棒性,这对于认知功能至关重要。
在实践中,滑动窗口机制谨慎地控制批归一化在时间上的范围,允许在每个阶段进行精细的数据处理。与传统的BN方法如tdBN和BNTT不同,我们的重点是更接近当前时间步的数据,确保更上下文敏感的归一化方法。这种方法增强了网络对动态时间变化的适应能力,如公式5所示。
“时空核心”作为SNN架构中的创新标志。它能够流畅地导航空间和时间维度,使其成为模拟人脑复杂计算能力的重要发展。这种结构不仅确保了模型效率,还突出了SNNs的生物相似性和脉冲特性,强调了其在现实应用中的潜力,其中性能和生物启发功能至关重要。
C. 能量消耗分析
在ANNs中,计算需求主要来自浮点运算(FLOPs),主要是乘积累加(MAC)操作。然而,SNNs主要依赖于累加(AC)操作,减少了MAC操作的需求。这种转变不仅减少了FLOPs,还通过减少功耗与SNNs的能量效率理念相一致。
然而,MAC操作在数据处理的初始阶段仍然是一个因素,其中原始图像被转换为脉冲编码格式。为了衡量能量使用,评估网络计算过程中MAC和AC操作的总能量消耗是必要的。
总能量消耗(EE)可以表示如下:
计算能量消耗提供了对我们的框架在处理管道中MAC和AC操作相互作用下的计算和能量效率增强的准确衡量。
四、实验
我们的实验评估涵盖了非神经形态数据集如CIFAR10、CIFAR100和ImageNet,以及神经形态数据集如CIFAR10-DVS和DVS128 Gesture。这些结果的可视化如图IV-A1所示,ImageNet的发现详见表I。其他数据集的结果汇总在表II中,而我们的消融研究结果总结在表III中。此外,这些消融研究的可视化表示可以在图IV-A2中找到。
A. 非神经形态数据集分类
IV-A1 ImageNet
数据集描述。 ImageNet数据集是计算机视觉领域的基石,包含约130万张训练图像,涵盖1000个类别,以及50,000张验证图像。
RTFormer的性能。 如表I所示,配备TSSN和结构重参数化DW-conv的RTFormer模型取得了显著的准确性。具体而言,配备58.86M参数的Spikformer-8-768模型达到了80.54%的top-1准确率,显著优于之前的SNN模型如SEW-ResNet和MS-ResNet。这一性能的提升还伴随着能量消耗的减少,突显了模型Transformer架构和优化组件的效率。
与SNNs中的BN方法比较。 RTFormer显著超越了tdBN方法,达到了80.54%的准确率,而tdBN的准确率为64.29%。这一显著的性能差异表明了架构和BN改进的有效性。此外,“本工作”的能量消耗较低(5.59mJ),而tdBN为7.05mJ,突显了效率的提高。同样,RTFormer在top-1准确率上比TEBN高出13.87%。RTFormer的准确率比MPBN方法高出13.45%。能量节省也很显著,RTFormer消耗的能量较少,从而为TSSN和重参数化Transformer架构带来的增强提供了有力证据。
与SNN中的Transformer比较。 Spikformer显示出竞争性能,达到了74.81%的准确率。然而,RTFormer的准确率高出3.35%,这在深度学习模型领域是一个显著的差距。脉冲驱动Transformer模型是Spiking Transformer的另一种变体,达到了77.07%的准确率,这是值得称赞的。尽管如此,RTFormer以78.16%的准确率略胜一筹。我们的架构的能量效率明显更好,能量消耗为5.59mJ,而脉冲驱动模型为6.09mJ,表明模型的改进并未以增加能量使用为代价。
IV-B2 CIFAR
数据集描述。 CIFAR-10数据集是一个著名的60,000张32x32彩色图像集合,分为10个类别,每个类别包含6,000张图像。CIFAR-100数据集在结构上与CIFAR-10相似,但提供了更具挑战性的任务,包含100个类别,每个类别包含600张图像,总计60,000张。这两个数据集由加拿大高级研究所开发,作为机器学习和计算机视觉的基本基准,促进了创新图像分类模型的发展和验证。
与之前工作的比较。 首先,如表II所示,当与之前的SNN模型如RMP等进行基准测试时,RTFormer表现出优越的性能。尽管传统的SNN如RMP和校准在领域中奠定了基础,RTFormer在其基础上进一步推动了边界。例如,在CIFAR-100上,RTFormer达到了81.37%的准确率,这是对RMP和校准分别达到的70.93%和77.87%准确率的显著改进。这一性能的飞跃可以归因于RTFormer更复杂的时间动态捕捉能力和优化的训练方法。
与SNN中的BN方法比较。 其次,与其他采用各种BN技术的SNN模型相比,RTFormer因其有效使用TSSN而脱颖而出。这一技术为RTFormer提供了优势,允许在不同时间步对神经元输出进行更好的归一化,这对于具有高类内变异性的数据集如CIFAR-100至关重要。归一化的改进有助于在训练过程中更稳定和更快的收敛,如与tdBN、TEBN和MPBN方法相比,准确率更高所证明的那样。
与SNN中的Transformer比较。 第三,在Spike Transformer架构的背景下,RTFormer的精细方法脱颖而出。RTFormer的创新BN方法与结构重参数化深度可分离卷积(DWconv)相结合,显著提升了其性能。尽管Spikformer和脉冲驱动模型展示了Transformer架构在SNNs中的可行性,RTFormer优化了这些设计,在CIFAR-10上达到了令人印象深刻的96.27%,在CIFAR-100上达到了81.37%。这不仅是对上述模型的改进,还突显了RTFormer架构的优势,特别是在处理复杂和微妙的数据集如CIFAR-100时。
总之,RTFormer通过其战略性的修改和增强,证明了SNNs的潜力,特别是在处理复杂的视觉数据方面,并为该领域的准确性和效率设定了新的基准。
B. 神经形态数据集分类
数据集描述。 CIFAR10-DVS数据集是著名的CIFAR-10数据集的神经形态版本,使用动态视觉传感器(DVS)进行转换。它以神经形态视觉系统兼容的格式呈现日常物体,捕捉像素强度的时间变化。DVS128 Gesture是一个专门为神经形态处理设计的手势识别数据集。它包含29名个体在各种光照条件下的手势数据,通过DVS相机捕捉,使其成为在SNNs和神经形态硬件上开发和测试手势识别模型的理想选择。
如表II所示,RTFormer在神经形态数据集如CIFAR10-DVS和DVS128 Gesture中表现出独特的优势,充分利用了脉冲神经网络(SNNs)的固有特性和RTFormer架构的创新。
与之前研究的比较。 RTFormer在神经形态数据集如CIFAR10-DVS和DVS128 Gesture中显著超越了之前的研究。它展示了更高的准确率,明显优于早期方法如RMP和校准,这些方法没有提供这些DVS数据集的结果。
与其他SNN中的BN方法比较。 当与其他批归一化技术如tdBN、TEBN和MPBN相比时,RTFormer在神经形态数据集上的准确率显著提高。这表明其集成批归一化的方法在处理这些数据集的动态特性方面更为有效。
与其他脉冲Transformer架构比较。 RTFormer在与Spikformer和脉冲驱动等其他脉冲Transformer架构的比较中也表现出色。它实现了更高的准确率,突显了其在处理神经形态数据集的时间丰富数据方面的有效性,从而强调了其在处理时空数据复杂性方面的先进能力。
C. 消融研究
为了验证TSBN的有效性,我们在CIFAR10和CIFAR10-DVS数据集上使用不同的架构进行了大量的消融研究。表III清楚地表明,时间滑动批归一化(TSBN)的集成导致了准确性的提高,无论底层骨干是脉冲ResNet还是脉冲Transformer。这种改进在静态和神经形态数据集上都是一致的,这在附带的图IV-A2中也是显而易见的。
D. RTFormer的性能洞察
与神经形态数据的架构协同作用。 神经形态数据集固有地包含传统静态数据集所缺乏的时间信息,而RTFormer擅长利用这一点。该模型的架构受Transformer设计的影响,天生适合处理序列,使其与神经形态数据集中的时间敏感数据特别契合。RTFormer使用专门设计的脉冲Transformer块来处理此类数据中存在的时空动态,使其能够捕捉对识别任务至关重要的细微时间模式。
在静态数据上的有效性。 RTFormer在处理静态数据集上的有效性可以归因于其新颖的重参数化卷积的集成。空间核心的重参数化卷积善于捕捉静态数据中的复杂空间模式,而TSBN即使在非时间上下文中也提供了自适应归一化,增强了网络从训练到未见数据的泛化能力。这种组合不仅提高了计算效率,还确保了高水平的准确性,使RTFormer成为动态和静态数据环境中的多功能工具。
高效的时间编码。 RTFormer使用时间滑动批归一化(TSBN)对神经形态数据集特别有益。这种专门的BN方法确保RTFormer的神经元保持最佳激发率,防止SNNs中常见的梯度消失和爆炸问题。这使得RTFormer能够高效地编码时间信息,这是处理CIFAR10-DVS等数据集时的关键方面,其中每个像素的强度变化随时间编码为脉冲序列。
对多样视觉刺激的鲁棒性。 RTFormer的鲁棒性源于其Transformer的根源,在神经形态数据集性能中显而易见。注意力机制使模型能够聚焦于脉冲序列中最显著的特征,增强了其以高精度区分不同手势和视觉模式的能力。
五、结论
为了确保在脉冲芯片上的高效推理,我们模型中的所有卷积操作都已结构重参数化。同时,我们改进了后续的批归一化(BN)技术,以适应漏积分-激发(LIF)神经元的特性,从而引入了时间滑动批归一化(TSBN)。通过将TSBN嵌入到Transformer架构中,我们构建了RTFormer,它在静态和神经形态数据集上都取得了前所未有的结果,设定了新的性能基准。