【无聊问题之】token和attention score的对应关系

在Self-Attention过程中:

  1. 每个输入token(通常是一个词向量)会先通过线性变换得到三个向量:查询(Query)、键(Key)和值(Value)。
  2. 对于每个token的查询向量(Query),都会与所有token的键向量(Key)进行点积运算,然后通过缩放因子(通常是输入维度的平方根的倒数)进行缩放,再应用softmax函数,得到该token对其他所有token的注意力分数。
    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(k_dim)
    attention_score = F.softmax(scores, dim=-1)
  3. 这些注意力分数表示了当前token在处理时对其他各个token的关注度。

因此,每个token会与其他所有token分别有一个对应的注意力分数。这些分数用于加权求和所有token的值向量,从而得到当前token的上下文表示。这是Transformer模型中Self-Attention机制的核心部分。

下面举个具体的栗子◔.̮◔✧:

如果输入共有5个token,那么对于任意一个token来说,它会有与其他4个token相对应的4个注意力分数。

具体来说:

  • 第一个token会有与第二个、第三个、第四个和第五个token的注意力分数。
  • 第二个token同样会有与第一个、第三个、第四个和第五个token的注意力分数。
  • 以此类推,直到第五个token。

即每个token都会有4个注意力分数,分别对应于其他4个token。这样,每个token都会根据这些注意力分数来加权其他token的值向量(Value),从而得到该token的上下文表示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值