面试网易大模型算法岗，强度拉满！

大靠山

于 2024-10-08 20:27:56 发布

阅读量431

点赞数 6

文章标签：面试算法职场和发展学习 python 人工智能 microsoft

本文链接：https://blog.csdn.net/m0_59235245/article/details/142768569

版权

最近已有不少大厂都在秋招宣讲了，也有一些在 Offer 发放阶段。

节前，我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。

今天分享我们一位粉丝成员面试网易大模型算法实习面经：

一面

时间：9.12 时长：1h

code：统计岛屿数量、最大岛屿面积，DFS方法解了

然后介绍实习项目，面试官非常耐心地听，没有打断

八股

bert和gpt的区别？（从模型架构、训练方式、使用场景方面回答的）
训练/微调一个LLM的流程？
实习时用的 megatron 框架吗，对分布式训练框架了解多少？（回答了deepspeed和megatron区别，以及几种并行方式，以及deepspeed的三种zero）
了解强化学习吗，跟SFT有什么区别？
反问：业务，对岗位的期望

评价：有点紧张，算法题有一个小失误没注意到

二面

时间：9.14 时长：1h

八股

写一下 attention 公式（代码实现了下）
训练时为什么要mask，推理时也需要吗？两处有什么区别？推理时的sequence length和训练时一样吗
transformer和传统seq2seq模型有什么区别？
计算attention时为什么要除以d_k，这个d_k的含义是？
attention计算时还有哪些scale处理？
attention中softmax函数作用、公式、为什么有减去最大值的处理？换个函数还能这样处理吗？
解释数值上溢、下溢问题
讲一下prompt书写的经验，如何判断prompt是否达标，如何改进prompt
讲一下SFT，会对哪部分计算loss？为什么？
讲一下deepspeed
训练用一个7b模型要占用多少显存？不同zero阶段能够节省多少显存？
训练模型时用了几张卡，有遇到什么异常中断问题吗？

反问： 在乎候选人什么能力？对面试表现有哪些改进意见？

评价： 基础不够扎实，网上有的知识都能回答上来，在同龄人里算比较优秀，欠缺一些多机多卡实践经验。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述