自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

samoyan的博客,记录技术成长~

samoyan

CSDN认证博客专家 CSDN认证企业博客

码龄9年

人工智能领域新星创作者

272: 原创

5794: 周排名

3502: 总排名

96万+: 访问

: 等级

8820: 积分

3350: 粉丝

1070: 获赞

108: 评论

1667: 收藏

私信

关注

热门文章

分类专栏

LLM 面试 29篇
服务器 11篇
NLP 37篇
机器学习 21篇
刷题 40篇
图像算法 1篇
pytorch 12篇
python 28篇
TensorFlow 18篇

最新评论

deepseek-vl 论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
LLaMA 模型和DeepSpeed 框架联系与使用
薪哥，很潇洒: 具体训练步骤是怎么样的呢？
Group Query Attention (GQA) 机制详解以及手动实现计算
斜陽: 有8个查询头，而键和值的头数为2，所以我们可以将查询头分为4组，每组有2个查询头这句话有问题吧。有 8 个 query 头和 2 个 key 和 value 头，所以每个 key 和 value 头将对应 4 个 query 头。
Group Query Attention (GQA) 机制详解以及手动实现计算
熬夜造bug: [code=python] attention_scores = [] for query_group in query_groups: score = torch.matmul(query_group, key.transpose(-2, -1)) # shape: (1, 256, 2, 256) score = torch.softmax(score, dim=-1) attention_scores.append(score) [/code] 3. 计算注意力分数& 4.计算注意力输出中shape: (1, 256, 2, 256)有错，改为shape: (1, 256, 2, 2)
Group Query Attention (GQA) 机制详解以及手动实现计算
2301_76339285: 第五个改成[code=python] final_output = torch.cat(attention_outputs, dim=2) # shape: (1, 256, 8, 64) final_output = final_output.view(1, 256, -1) # reshape to (1, 256, 512) print(final_output.shape) # Output: torch.Size([1, 256, 512]) [/code]

最新文章

2024

python

关注

关注数：文章数：28 文章阅读量：48000 文章收藏量：95

作者: samoyan

分享技术成长的日常

展开