一步一步理解大模型:查询序列和键序列

在Transformer中,查询序列(query sequence)和键序列(key sequence)是指通过注意力机制(attention mechanism)计算得出的注意力分布所依据的输入序列。

在transformer中的self-attention计算中,查询序列、键序列和值序列都是通过相同的输入序列计算得到的。

这里是一个使用 PyTorch 实现的例子,演示了如何使用 self-attention 计算相同输入序列的查询序列、键序列和值序列:

import torch
import torch.nn as nn

class SelfAttention(nn.Module):
    def __init__(self, d_model, n_head):
        super(SelfAttention, self).__init__()
        self.d_model = d_model
        self.n_head = n_head
        self.d_k = d_model // n_head

        # 初始化查询(query)、键(key)和值(value)矩阵
        self.w_q = nn.Linear(d_model, d_model)
        self.w_k = nn.Linear(d_model, d_model)
        self.w_v = nn.Linear(d_model, d_model)

    def forward(self, x):
        batch_size = x.size(0)

        # 将输入进行查询、键

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值