一面
说一下 Transformer 的整体结构
了解有哪些位置编码方式吗?
说一下 LLaMA 中的旋转位置编码
为什么现在的大模型大多是decoder-only的架构?
LLM中的因果语言建模与掩码语言建模有什么区别?
如何减轻LLM中的幻觉现象?
如何评估大语言模型(LLMs)的性能?
算法题:经典的求平方根,牛顿迭代法秒了
算法题:判断一个字符串能否由另一个字符串旋转而来,比如abcd旋转后可以变成dabc或者bcda等,写完后面试官要求O(1)
二面
简述GPT和BERT的区别
讲一下生成式语言模型的工作机理
ChatGPT的零样本和少样本学习
Transformer 的多头注意力机制
为什么Transformer的架构需要多头注意力机制?
transformer中,同一个词可以有不同的注意力权重吗?
有哪些常见的优化LLMs输出的技术?
参数高效的微调(PEFT)有哪些方法
请简述下PPO算法流程,它跟TRPO的区别是什么?
DeepSpeed 是否了解?对算子融合做了哪些优化?
算法题:BFS 求岛屿数量
算法题:回文子串的一个题,dp