dim=0是列,dim=1是行。
目录
1.1 手写 self_attention_layer (没写反向,之后补充)
1.2 pytorch版本的attention (没写反向,之后补充)
1. self_attention_layer
注意:
1. q、k维度相同,v维度可以不同(=输出维度)
2. 矩阵乘法np.matmul(m,n)。 矩阵点乘 np.multiply(m, n)。
1.1 手写 self_attention_layer (没写反向,之后补充)
X样本是按列的,所以左乘,然后softmax时也要按列。
# 手写版本
import numpy as np
from numpy.random import randn
d = 256
n = 32
x