加法Transformer！Spike-driven Transformer部分代码解读（NeurIPS 2023）

Singare.

已于 2024-04-09 21:42:57 修改

阅读量1.7k

点赞数 35

文章标签： transformer 深度学习人工智能

于 2024-04-09 20:32:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46806752/article/details/137556688

版权

纯加法Transformer！脉冲神经网络和Transformer的Spike-driven Transformer部分代码解读

简单叙述
注意力部分代码解读

仅个人学习记录和个人拙见，有错误地方希望指导～

原文：Spike-driven Transformer
推荐阅读：纯加法Transformer！结合脉冲神经网络和Transformer的Spike-driven Transformer （NeurIPS 2023）

简单叙述

对transformer的整体框架转换如下图。因为我主要阅读的是Spike-Driven Self-Attention(SDSA)部分，所以对整体框架的解读就少了许多，下面只是简单介绍一下attention部分的qkv的改变。
请添加图片描述

SDSA的改进如下。也就是纯加法transformer的过程中对注意力机制的变化。图片中很形象，能够一目了然。主要是将矩阵乘积转换为了Hadamard multiply哈达玛积。还引用了点积等。在计算复杂度上也有了一定量的减少。
在这里插入图片描述

注意力部分代码解读

注意力部分实现在./module/ms_conv.py里，主要函数为MS_SSA_Conv()类。
主要看一下forward中对整个过程的改写。
（代码中dvs和hook部分忽略阅读，不影响整体框架。dvs是说输入是否是动态视频，hook是是否保存一些过程值）

在这里插入图片描述

前提：
x：输入
T：序列长度
B：batch长度，批大小
C：通道数
H：长度（行）
W：宽度（列）
x的形状是（T,B,C,H,W）
N：像素个数（N=H*W)

我们为了便于理解将T, B, C, H, W分别假设为1, 2, 4, 3, 3，num_heads=2

准备工作

1、首先复制一个原始x为identity，并初始化其他参数。

T, B, C, H, W = x.shape
identity = x
N = H * W
identity = x

2、将x变为脉冲信号

x = self.shortcut_lif(x)

3、新建一个变量x_for_qkv，存储x扁平化的结果。为了方便后续qkv的操作。

x_for_qkv = x.flatten(0, 1)

qkv初始化

4、得到q_conv_out（也就是注意力机制中的q，为了方便后续就将其叫为q）。首先将x_for_qkv进行一个二维卷积，然后再进行一个批归一化。并在同时reshape一下使得q的形状为(T, B, C, H, W)。并将q 变为脉冲形式。
在上述假设中此时的q为脉冲，并且形状为

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。