大模型相关代码1 -- 注意力机制【手撕基础模型】

WHY-233

已于 2024-06-27 22:41:41 修改

阅读量410

点赞数 4

分类专栏： NLP基础知识文章标签：深度学习人工智能机器学习

于 2024-06-27 22:39:27 首次发布

本文链接：https://blog.csdn.net/GS2333/article/details/140025956

版权

NLP基础知识专栏收录该内容

4 篇文章 0 订阅

订阅专栏

注意力机制

公式
代码

看见网上有要手撕注意力的面经，自己开始写，以为很简单，实际上自己菜的要死，遂写本博客。

公式

$softmax(\frac{QK^t}{\sqrt d})V$

代码

def myattention(q, k, v, d_k, mask=None, dropout=None):
	# 首先计算注意力得分
    score = torch.matmul(q,k.transpose(-2,-1)) / math.sqrt(d_k)
    # 处理mask信息，如果被mask就变成一个很小的数
    if mask is not None:
        mask = mask.unsqueeze(1)
        score = score.masked_fill(mask == 0,-1e9)
    # 对注意力得分进行softmax
    score = F.softmax(score, dim=-1) # 沿着最后一个维度计算 其他维度不变
    # 处理dropout
    if dropout is not None:
        score = dropout(score)
    # 点乘value矩阵
    ans = torch.matmul(score,v)
    return ans