transformer中multi-head attention在论文中的描述和代码实现的差异

最新推荐文章于 2024-04-05 00:30:00 发布

Altinder

最新推荐文章于 2024-04-05 00:30:00 发布

阅读量349

点赞数 1

分类专栏： NLP

本文链接：https://blog.csdn.net/qq_40332976/article/details/118993009

版权

多头注意力线性变换点积注意力参数量深度学习

关键词由CSDN通过智能技术生成

NLP 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

在这里插入图片描述
论文中描述的是对QKV做多次线性变换，几个头做几次，默认8次，每一次的维度变换为512->64，然后在单独的头里做点积attention，在把每个头的结果拼起来，维度还原到512
总参数量：512×64×8(n_head)×3

class MultiHeadAttention(nn.Module):
    ''' Multi-Head Attention module '''

    def __init__(self, n_head, d_model, d_k, d_v, dropout=0.1):
        super().__init__()

        self.n_head = n_head
        self.d_k = d_k
        self.d_v = d_v

        self.w_qs = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_ks = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_vs = nn.Linear(d_model, n_head * d_v, bias=False)

def forward(self, q, k, v, mask=None):

        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
        sz_b, len_q, len_k, len_v = q.size(0), q.size(1), k.size(1), v.size(1)

        residual = q

        # Pass through the pre-attention projection: b x lq x (n*dv)
        # Separate different heads: b x lq x n x dv
        q = self.w_qs(q).view(sz_b, len_q, n_head, d_k)
        k = self.w_ks(k).view(sz_b, len_k, n_head, d_k)
        v = self.w_vs(v).view(sz_b, len_v, n_head, d_v)