自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 GQA手撕

2. 将 Q 拆分成多头(head_dim 和 num_head , 从hidden_size得到)4. 计算上下文向量 (求和 softmax和dropout之后的数值 * V)2.5. 拆分之后的 Q 要对seq_len 和 num_head交换维度(后续进行矩阵乘法)1. 每个头的维度 = 输入特征维度 / 注意力头数量。1.5 头分出的组数(group_num) = 注意力头数量 / 每组包含的头数。6. 通过输出线性层。(K,V输出维度head_dim * 头分出的组数,)

2025-11-16 14:46:35 320

原创 MQA手撕

2. 将 Q 拆分成多头(head_dim 和 num_head , 从hidden_size得到)4. 计算上下文向量 (求和 softmax和dropout之后的数值 * V)2.5. 拆分之后的 Q 要对seq_len 和 num_head交换维度(后续进行矩阵乘法)2. 定义线性变换层,用于生成 Q, K, V。6. 通过输出线性层。初始化:输入特征维度,注意力头数量,是否dropout。(K,V输出维度head_dim,相当于直接拆分)前向传播:1. 通过线性层得到 Q, K, V。

2025-11-13 11:44:29 144

原创 MHA手撕

2. 将 Q, K, V 拆分成多头(hidden_dim 和 num_head , 从hidden_size得到)4. 计算上下文向量 (求和 softmax和dropout之后的数值 * V)1. 每个头的维度 = 输入特征维度 / 注意力头数量。2. 定义线性变换层,用于生成 Q, K, V。3. 计算注意力权重。6. 通过输出线性层。初始化:输入特征维度,注意力头数量,是否dropout。前向传播:1. 通过线性层得到 Q, K, V。

2025-11-11 12:00:20 247

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除