超全啊！这是我见过的大模型算法岗(含实习)最走心的总结了！

最新推荐文章于 2025-03-14 22:30:07 发布

大模型与自然语言处理

最新推荐文章于 2025-03-14 22:30:07 发布

阅读量4.1k

点赞数 26

分类专栏： NLP与大模型文章标签：算法人工智能自然语言处理 LLM 大模型

本文链接：https://blog.csdn.net/2201_75499313/article/details/136075328

版权

NLP与大模型专栏收录该内容

211 篇文章

订阅专栏

年底了，技术群组织了一场算法岗技术&面试讨论会，邀请了一些同学分享他们的面试经历，讨论会会定期召开，如果你想加入我们的讨论群或者希望要更详细的资料，文末加入。

喜欢本文记得收藏、关注、点赞。

文章目录

网易

大模型日常实习就中了，我要去网易做大模型实习生啦。

一面

1.文本生成的几大预训练任务？

2.多模态中常见的sota模型，clip为什么效果好

3.多模态大模型有哪些？介绍一下stable diffusion的原理

4.chatglm的原理，其结构，其训练过程

5.instructGPT的原理，讲讲rlhf和reward

6.手写一个文本生成的生成器

二面

1.讲讲T5和Bart的区别，讲讲bart的DAE任务

2.讲讲Bart和Bert的区别，分析下为什么MLM任务能在预训练任务界占这么重要的地位。

3.讲讲项目中对比学习的应用，解释下什么是曝光偏差

4.对比学习负样本是否重要？负样本构造成本过高应该怎么解决

5.项目中提出的利用对比学习解决曝光偏差问题的想法来源？为什么能想到这么做，这么做带来的收益如何？

6.有没有微调过大模型，介绍一下lora的原理和ptuning的原理

7.讲下自己认为自己做事和学习上的缺点与不足

自我感觉答的不错，面试官在面试过程中频频点头，应该印象不错。面完第二天就收到offer了。

美团

岗位：大模型算法岗（日常实习）

一面

面试官是一名温柔小姐姐吖，下面是面试过程：

1.自我介绍
（让我开一下摄像头）

2.聊聊你自我介绍中提到的自己的论文

3.论文录用概率大吗（论文在投）

4.AI大模型的训练过程

5.大模型的优缺点（以及你自己的角度体验到的）

6.大模型的用户体验感最注重哪几个方面

6-2.你自己使用过程中，大模型你感觉体验感怎么样

7.目前市面上有哪些大模型

8.你的最大优点和缺点

9.你认为这个岗位的职责，以及需要具备哪些能力

10.聊了聊大模型在美团业务中可以用来做什么

11.你用过大模型哪些功能？

12.最快什么时候能入职

我提问：
1.岗位待遇
2.有几面 2，业务面和HR面
3.有转正机会吗

理想

大模型面经

一面

自我介绍，讲一下大模型应用项目（我讲的nl2sql的项目）

项目背景，总体思路，解决什么问题，指标是什么

细节拆分：

1.数据集怎么构建的，什么规模，有没有质量评估

2.模型底座是什么，这些不同底座什么区别，什么规模

3.训练方法，用的什么sft，有什么不同，有什么优缺点，原理上解释不不同方法的差别

4.评估指标是什么，这些指标存在哪些问题

5.模型推理是怎么做的，有没有cot，tot等等，还是单轮

6.模型可控性如何实现，怎么保证可控性

7.模型部署的平台，推理效率怎么样，如何提升推理效率

8.有没有上线，面临什么问题，怎么解决

9.给一个总的输入输出样例，每一步包含什么prompt，多轮推理每一步输出什么结果，模拟一下，数据集格式是否要调整成这样，数据形式是什么，怎么拆分成多轮形式等等。。

到这里项目差不多了大概问了45min

然后是八股+开放式问题
1.大模型前景

2.大模型主要存在的问题和解决思路（幻觉，定向编辑，继续训练等等）

3.大模型加速框架了解多少，知不知道原理如何进行加速优化

4.为什么要用大模型做传统结构化解析任务你对用大模型做这些事有什么看法

到这差不多1小时

最后是能不能实习，对最新的研究了解多少，看过多少最新论文等等

我本以为结束了，但是，最后我们来做一道题吧

题我忘了，好像是一个迭代法求根的题，反正当时已经神志不清了，好像没ac

二面

很简单，感觉是部门leader，简单问了问项目，普通八股，大模型上线会有什么问题，占用多少资源，怎么优化等等，比一面简单太多

长亭科技

岗位：大模型

面试官挺和蔼的，整体偏向互相交流学习，没答出来的他还说没关系，这是个不断学习的过程。不是压力面真好！

面试内容偏向八股、基础知识，项目和论文问的少。

自我介绍

介绍Transformer

有哪些encoder-only、decoder-only、encoder-decoder结构

介绍BERT（项目、论文、实习里用的都是bert，没用过其他结构）

我目前的研究基本上用BERT+线性层之类的来做，问我LLM出现后分类任务会被取代吗？

BERT、GPT如何分词，有什么区别

常见的位置编码（讲了正余弦位置、可学习参数矩阵、RoPE）

BERT里的可学习参数矩阵来表示位置编码，对于长文本呢》超过这个长度怎么办？

Attention，为什么有Multi-head，作用是什么。BERT里head数是多少，我说bert-base是12，反问为啥是这个数，是基于啥算法得到的还是经验设计的，我猜测是通过实验观察得到

面试官偏向用GPT系列的decoder结构，对BERT这些记不太清了，所以一直在问这方面的内容，我也表示了确实主要用的还是BERT，但目前的大模型也确实都基于decoder架构来做。

介绍项目的收获与其中的难点。

具体想做算法哪方面，一开始没理解还以为是具体的NLP任务场景，我说都可以做，后来又追问，说是偏数据工程还是模型设计还是模型训练，我脑子一抽说了模型设计，面试官反问说模型设计现在基本上没什么可以改进的了，LLM都基本用decoder结构，然后我说这仨我都可以接受，主要是确实都能做啊，也没啥特别喜爱的QAQ
反问，主要业务场景（安全领域的大模型）、需要具备的技能（追踪最新的SOTA、读paper、理解能力、持续学习能力、动手能力、思考能力）

总体来说还是一场体验感不错的面试，也没有任何刁难，不会的问题面试官也一直说没关系。像是互相在探讨学习的一个过程~

淘天

大模型（日常实习）

llama 7b 为什么比其他基座好，与gpt3比做了什么改进：数据上质量更高，结构上用的RoPE+SwiGLUE
GQA可以给训练加速吗：不可以，
检索增强怎么做的：
长度外推除了ROPE还有什么方法（长度外推一个是训练时数据没那么长导致的一些问题，一个是计算复杂度太高没那么多资源）：局部注意力（平移不变性，感受野，window），插值，flashattetion, GQA
Baichuan和chatglm2有什么不同，数据上，训练上，结构上
Visualglm图片怎么处理的：blip-qformer
Transformer结构，一层层讲
Visualbert什么结构：前text后visual，用faster-cnn和resnet-50提取视觉特征
RLHF流程：一个actor,一个critic,一个reward model。将sft后的模型输出后生成回答，回答+答案输入RW得到分数（取最后一个token投影一下）
Reward model怎么训练的，损失函数是什么：
提示工程的fewshot有什么做法：聚类
Chatglm2与1有什么区别：prefix-decoder回归casual-decoder（原因1.多轮对话用prefix-decoder需要构造多个数据来训练，而casual可以直接用整个多轮对话数据，等效，且各个对话的权重不一样）（这个改动导致了2维编码的去除）；gelu->swiglu；RMSnorm；flashattention；MQA
Chatglm2对话权重不一样的原因：
为什么chatglm系列的用ptuning比lora好：都是清华一个实验室出的，配套效果吧
Ptuning是怎么样做的大概讲讲：前面cocat可学习参数，多了一个MLP层，代码中在k,v矩阵中concat矩阵参数
Lora怎么做的？为什么只调q,v矩阵或者q矩阵？别人实验这样做不代表在你这个场景下这样做就是对的？
为什么模型都聚焦于decoder-only而不是encoder-only或者encoder-decoder：
Self-consistency是什么