Transformer的代码实现 day02(Multi-Head Self-Attention)

本文详细介绍了Multi-HeadSelf-Attention的理论,包括Q、K、V向量的生成和注意力计算过程。并通过PyTorch代码展示了如何实现这一机制,重点涵盖了头数设置、线性变换和注意力权重的计算。
摘要由CSDN通过智能技术生成

Multi-Head Self-Attention的理论部分

  • Self-Attention是指Q、K、V同源,同时对输入x乘以三个矩阵 W Q W^Q WQ W K W^K WK W V W^V WV得到Q、K、V,之后Q与K相乘得到概率,概率和V相乘得到最后的注意力值Z,流程图如下:
    在这里插入图片描述
  • Multi-Head Self-Attention是将输入x拆分为8块,分别得到它们的Q、K、V,并进行自注意力计算,得到各自的注意力值Z后,拼接起来,经一个线性变换得到和输入x相同维度的Z‘作为最后的输出,流程图如下:
    在这里插入图片描述

Multi-Head Self-Attention代码实现

  • Self-Attention的代码实现:
def self_attention(query, key, value, dropout=None, mask=None):
    d_k = query.size(-1)
    scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(d_k)
    # mask的操作在QK之后,softmax之前
    if mask is not None:
        mask.cuda()
        scores = scores.masked_fill(mask == 0, -1e9)
    # self_atten为概率值,还没有乘V
    self_attn = F.softmax(scores, dim=-1)
    if dropout is not None:
        self_attn = dropout(self_attn)
    return torch.matmul(self_attn, value), self_attn
  • Multi-Head Attention的代码实现:

class MultiHeadAttention(nn.Module):

    def __init__(self):
        super(MultiHeadAttention, self).__init__()


    def forward(self,  head, d_model, query, key, value, dropout=0.1,mask=None):
        """
		# 注意:head、d_model、query、key、value都可以放在init()中
        :param head: 头数,默认 8
        :param d_model: 输入的维度 512
        :param query: Q
        :param key: K
        :param value: V
        :param dropout:
        :param mask:
        :return:
        """
        assert (d_model % head == 0)
        self.d_k = d_model // head
        self.head = head
        self.d_model = d_model

        self.linear_query = nn.Linear(d_model, d_model)
        self.linear_key = nn.Linear(d_model, d_model)
        self.linear_value = nn.Linear(d_model, d_model)

        # 自注意力机制的 QKV 同源,线性变换
		# 为了保证多头自注意力的最后输出和输入维度相同,所以还要加一层线性变换
        self.linear_out = nn.Linear(d_model, d_model)

        self.dropout = nn.Dropout(p=dropout)
        self.attn = None



        # if mask is not None:
        #     # 多头注意力机制的线性变换层是4维,是把query[batch, frame_num, d_model]变成[batch, -1, head, d_k]
        #     # 再1,2维交换变成[batch, head, -1, d_k], 所以mask要在第一维添加一维,与后面的self attention计算维度一样
        #     mask = mask.unsqueeze(1)

        n_batch = query.size(0)

        # 多头需要对这个 X 切分成多头

        # query==key==value
        # [b,1,512]
        # [b,8,1,64]

        # [b,32,512]
        # [b,8,32,64]
		# view方法是用来改变张量的形状的。它返回一个新的张量,其数据与原始张量共享,但具有不同的形状。
		# -1 为占位符,表示自动计算维数大小,以保持总元素数不变
        query = self.linear_query(query).view(n_batch, -1, self.head, self.d_k).transpose(1, 2)  # [b, 8, 32, 64]
        key = self.linear_key(key).view(n_batch, -1, self.head, self.d_k).transpose(1, 2)  # [b, 8, 32, 64]
        value = self.linear_value(value).view(n_batch, -1, self.head, self.d_k).transpose(1, 2)  # [b, 8, 32, 64]

        x, self.attn = self_attention(query, key, value, dropout=self.dropout, mask=mask)
        # [b,8,32,64]
        # [b,32,512]
        # 变为三维, 或者说是concat head
        # contiguous()函数用来确保transpose交换维度后的张量在内存中是连续存储的。因为view()函数需要张量在内存中是连续存储
        x = x.transpose(1, 2).contiguous().view(n_batch, -1, self.head * self.d_k)

        return self.linear_out(x)

参考文献

  1. 03 Transformer 中的多头注意力(Multi-Head Attention)Pytorch代码实现
  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

丿罗小黑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值