Prefix tuning--＞Attention中的矩阵拆解问题

最新推荐文章于 2024-06-21 22:50:08 发布

Rainylt

最新推荐文章于 2024-06-21 22:50:08 发布

阅读量291

点赞数

分类专栏：多模态文章标签：矩阵深度学习线性代数

本文链接：https://blog.csdn.net/lt1103725556/article/details/130434324

版权

多模态专栏收录该内容

4 篇文章 0 订阅

订阅专栏

我们首先把Attention(Q, K, V)简单定义为(Q @ K.T) @ V，@为pytorch中的矩阵乘法
那么，若K = torch.cat((K1, K2)) V=torch.cat((V1, V2))
其中K1: [6, 128] K2: [7, 128] V1: [6, 128] V2:[7, 128]
那么则有(Q @ K.T) @ V = (Q @ K1.T) @ V1+ (Q @ K2.T)@ V2

如图所示：
在这里插入图片描述
Q @ K.T @ V根据矩阵乘法的结合律可以等效为Q @ (K.T @ V)
由下图中可以看出，[K1, K2].T与[V1, V2]相乘==K1.T * V1 + K2.T * V2

所以

Q @ K.T @ V = Q @ (K1.T @ V1 + K2.T @ V2)
			= Q @ K1.T @ V1 + Q @ K2.T @ V2

加上原本attention的softmax的话就是

Attention(Q, [K1, K2], [V1, V2]) = Softmax(Q @ [K1, K2].T) @ [V1, V2] 
		=(1-f(x))*Softmax(Q @ K1.T) @ V1 + f(x)*Softmax(Q @ K2.T) @ V2

其中，f(x)是为了将K1, K2拆开成两个softmax时产生的标量，详见TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING (ICLR 2022)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Rainylt

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Prefix tuning--＞Attention中的矩阵拆解问题

其中，f(x)是为了将K1, K2拆开成两个softmax时产生的标量，详见TOWARDS A UNIFIED VIEW OF PARAMETER-EFFICIENT TRANSFER LEARNING (ICLR 2022)由下图中可以看出，[K1, K2].T与[V1, V2]相乘==K1.T * V1 + K2.T * V2。加上原本attention的softmax的话就是。我们首先把Attention(Q, K, V)根据矩阵乘法的结合律可以等效为。为pytorch中的矩阵乘法。
复制链接

扫一扫