在Self-Attention过程中:
- 每个输入token(通常是一个词向量)会先通过线性变换得到三个向量:查询(Query)、键(Key)和值(Value)。
- 对于每个token的查询向量(Query),都会与所有token的键向量(Key)进行点积运算,然后通过缩放因子(通常是输入维度的平方根的倒数)进行缩放,再应用softmax函数,得到该token对其他所有token的注意力分数。
scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(k_dim) attention_score = F.softmax(scores, dim=-1)
- 这些注意力分数表示了当前token在处理时对其他各个token的关注度。
因此,每个token会与其他所有token分别有一个对应的注意力分数。这些分数用于加权求和所有token的值向量,从而得到当前token的上下文表示。这是Transformer模型中Self-Attention机制的核心部分。
下面举个具体的栗子◔.̮◔✧:
如果输入共有5个token,那么对于任意一个token来说,它会有与其他4个token相对应的4个注意力分数。
具体来说:
- 第一个token会有与第二个、第三个、第四个和第五个token的注意力分数。
- 第二个token同样会有与第一个、第三个、第四个和第五个token的注意力分数。
- 以此类推,直到第五个token。
即每个token都会有4个注意力分数,分别对应于其他4个token。这样,每个token都会根据这些注意力分数来加权其他token的值向量(Value),从而得到该token的上下文表示。