大模型面试知识点整理（一）

幻兽帕鲁

已于 2024-04-28 21:10:13 修改

阅读量422

点赞数 5

分类专栏：大模型/GPT基础知识文章标签：人工智能算法

于 2024-04-28 08:11:02 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_49134108/article/details/137125982

版权

大模型/GPT基础知识专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本帖是为了整理大模型/transformer面试常见的问题，以及自己面试会遇到的问题。

知识点来源1：

大模型八股答案（一）——基础知识 - suc16的文章 - 知乎

https://zhuanlan.zhihu.com/p/643829565

内容：

attention 手写公式:

Q = xWq, K = xWk, V = xWv

attention(Q,K,V) = softmax(QK^T/sqrt(d_k))V

transformer里的是多头注意力，会多一个输出权重矩阵，所以一共有4个矩阵（把各个头的attention结果concat后过一层linear）

如下图，有一个linear的网络

hidden size: 一般也是embedding的维度，以及每一个头的隐藏维度。一般从4096到8192。

手写一个scaled dot product attention:

def scaled_dot_product_attention(self, q,k,v):

n, q_len, h_dim = q.shape

attention = torch.bmm(q, k.transpose(-2, -1))/math.sqrt(h_dim)

attention = attention.softmax(dim=-1)

output = torch.bmm(attention, v)

return output, attention

对于GQA：多了一个组内重复的动作。

q = self.q_proj(query).reshape(bs, q_len, self.num_heads, self.head_dim).transpose(1,2).reshape(-1, q_len, self.head_dim)

k=self.k_proj(key).repeat_interleave(self.num_key_value_groups, dim=0).reshape(***).transpose(1,2).reshape(***)

v=****

output, attention=self.scaled_dot_product_attention(q,k,v)

...

class llama_attention:

def __init__:

self.q_proj = nn.linear(self.hidden_size, self.num_heads * self.head_dim )

self.k_proj=...
self.v_proj=...

self.o_proj=nn.linear(self.num_heads * self.head_dim, self.hidden_size)

def forward(past_key_value = None):

if past_key_value is not None:

#上一轮的k和v可以复用

#每次decode，都是把问题+上一轮的回答作为输入去预测下一个token，直到遇到终止符。（问：这里的question prompt也输入在里面吗）

key_state = torch.cat([past_key_value[0], key_state], dim = 2)

value_state = torch.cat([past_key_value[1], value_state], dim = 2)

attention_weights = torch.matmul(q, k.transpose(2,3))/math.sqrt(head_dim)

#在这里加上attention mask

if attention_mask is not None:

attn_weights = attn_weights + attention_mask

#dtype_min = torch.tensor( torch.finfo(attn_weights.dtype).min, device=attn_weights.device, dtype=attn_weights.dtype )

#attn_weights = torch.max(attn_weights, dtype_min)

# 计算softmax，这里需要从fp16升为fp32 # upcast attention to fp32

attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(query_states.dtype)

attn_output = torch.matmul(attn_weights, value_states)

attn_output = attn_output.transpose(1, 2)

attn_output = attn_output.reshape(bsz, q_len, self.hidden_size)

attn_output = self.o_proj(attn_output)

if not output_attentions:

attn_weights = None

past_key_value = (key_state, value_state)

return attn_output, attn_weights, past_key_value

位置编码：

正弦余弦编码：PE(pos，2k) = sin(pos/10000^2k/d_model)

pos 【0，max_len-1】

k:[0, d_model-1]

llama里用的是旋转位置编码RoPE。向量的内积就会引入位置信息。

BBPE可以通过组合字节对的方法表示词表范围以外的中文字符，如llama。那是否可以所有模型通用一个分词器

呢？答案是不可以，因为在中文语料上训练，一个token可以表示两个以上汉字，而上面的方法一个汉字可能需要3个token表示，影响表示效率。

这里错了，bpe和bbpe的区别在于，bbpe是深入到字节层面表示的，因此可以在跨语言表示时不需要专门扩充词表。但是如果遇到非ascii文字较多的情况，表示的token数量还是会过多，从而导致序列过长，推理速度较慢。

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
大模型面试知识点整理（一）

答案是不可以，因为在中文语料上训练，一个token可以表示两个以上汉字，而上面的方法一个汉字可能需要3个token表示，影响表示效率。这里错了，bpe和bbpe的区别在于，bbpe是深入到字节层面表示的，因此可以在跨语言表示时不需要专门扩充词表。但是如果遇到非ascii文字较多的情况，表示的token数量还是会过多，从而导致序列过长，推理速度较慢。transformer里的是多头注意力，会多一个输出权重矩阵，所以一共有4个矩阵（把各个头的attention结果concat后过一层linear）
复制链接

扫一扫

专栏目录

幻兽帕鲁 CSDN认证博客专家 CSDN认证企业博客

码龄4年

28: 原创

79万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

610: 积分

217: 粉丝

330: 获赞

9: 评论

323: 收藏

私信

关注

热门文章

分类专栏

最新评论

大模型面试知识点整理（一）
CSDN-Ada助手: 恭喜您第13篇博客《大模型面试知识点整理（一）》发布成功！不断分享知识真的很棒！接下来，或许可以考虑继续深入探讨各种面试知识点，或者分享一些实战经验和技巧，让读者更加受益。期待您的下一篇作品！祝您创作愉快！😊👏
大模型面试知识点整理（二）
CSDN-Ada助手: 恭喜作者发布了第14篇博客，标题为“大模型面试知识点整理（二）”。持续创作是很不容易的，作者辛苦了！希望作者在未来的创作中能够继续保持热情，不断进步，也可以考虑增加一些实例分析或案例分享，让读者更加深入地理解和应用所学知识。期待作者更多的精彩内容，加油！
大模型面试知识点整理（三）
CSDN-Ada助手: 恭喜你写了第15篇博客！看到你整理的大模型面试知识点，觉得非常有用。希望你能继续保持写作的热情和耐心，持续分享有价值的内容给读者。或许下一步可以考虑加入一些实际案例或者个人经验，让读者更容易理解和吸收知识。期待你的下一篇作品！愿你越来越好！
大模型面试知识点总结（四）
CSDN-Ada助手: 恭喜作者发布了第16篇博客，内容围绕大模型面试知识点总结，非常有深度和实用性。希望作者能够继续保持创作的热情和耐心，为读者带来更多有价值的内容。建议下一步可以尝试探讨一些实际案例或者应用场景，更好地帮助读者理解和应用所学知识。期待作者的更多精彩作品！加油！
强化学习自学总结
CSDN-Ada助手: 恭喜您写完了第12篇博客“强化学习自学总结”！每篇博客都展现了您对学习的热情和努力。在下一步的创作中，建议您可以尝试深入探讨强化学习的具体应用场景，或者分享一些实际操作经验，让读者更加深入地了解这一主题。希望您继续保持创作的热情，不断进步！期待您更多精彩的内容！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。