阿里面试官：大模型上线前为什么要做推理优化？985学妹的满分回答！

hhaiming_

于 2024-08-09 18:15:00 发布

阅读量363

点赞数 13

文章标签：人工智能自然语言处理大模型职场和发展面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_70839135/article/details/141036151

版权

0****1

为什么大模型上线需要做推理优化？

面试官心理分析

面试官问这个问题，其实主要是想看两点：

第一，你知不知道产品级大模型系统里为什么要用推理优化这个东西？

不少候选人，说自己项目里用了推理优化技术，但是其实他并不知道自己为什么要用这个东西。说白了就是为了用而用，或者看别人用他也用，从头到尾都没思考过。

没有对自己的设计问过为什么的人，一定是平时没有思考的人，面试官对这类候选人印象通常很不好。因为面试官担心你进了团队之后只会木头木脑的干呆活儿，没有自己的思考。

第二，你既然用了推理优化这个东西，你知不知道用了有什么好处，同时又有什么坏处？你当时做没做过调研，为什么要用它？

你要是没考虑过这个，那你盲目弄个 INT8 量化或者 INT4 量化进系统里，后面出了问题是不是就自己溜了给公司埋雷？

你别傻乎乎的自己拍脑袋看个人喜好就瞎用一个量化技术，甚至都从没调研过业界流行的低比特量化技术到底有哪几种？每一个量化技术的优点和缺点是什么？是量化权重还是量化激活，效率如何？是不是精度无损的？

如果一个不考虑技术选型的候选人招进了大模型团队，leader 交给他一个任务，去做一个大模型业务，他在里面用一些技术，可能都没考虑过选型，随便拿来一段现成的代码就用，最后选的技术方案并不一定合适，一样是埋雷。

回到问题，对于对于真实场景的面试题，一定不是你说得越多越好，面试时间本身有限，废话太多，面试官完全没有耐心听下去。重点是要答到点上，如果答的牛头不对马嘴，一样是 0 分。

因此对于第一个问题，面试官期望的一个优秀回答是要包含如下两个关键点：

计算耗时——推理时延太长，造成用户体验差，甚至不能满足延迟需求
Memory 问题——模型参数量多，耗费显存，甚至单张 GPU 卡放不下

上面两个问题，其实可以总结为大模型领域两个技术名词，“计算墙”和“内存墙”，如果你能说到这两个重要的技术名词，面试官对你的印象分可能又会多加 2 分。

因此，针对这两堵“墙”，大模型上线推理优化的目标就是：

缩短推理延迟，追求极致的用户体验
减少 GPU 显存占用，降低部署成本

这个问题回答到此就可以了，做到回答简洁，包含所有要点，没有一句废话。

0****2

常见的大模型推理优化技术有哪些，各有什么特点？

面试官心理分析

如果第一个问题你回答上了，面试官大概率会继续追问这一个问题。

它其实是想看你是不是真的了解大模型推理优化的技术细节，面试官期望的优秀回答，是你能回答上目前常见的优化技术。

推理优化总体可以归纳为 6 个类，分别是：

分布式优化
低比特量化
算子优化
访存优化
服务并发优化
其他新技术

如果你能答上这 6 类技术的其中 4 类以上，并说出每类技术的特点，其实面试基础分就拿到了。

例如：

分布式优化重点是通信层面的优化
低比特量化目的是降低显存占用
算子优化是提升 CUDA 算子的计算效率
访存优化是减少 GPU 对 HBM 的访问以及提高显存利用率

但是如果你能更进一步，把回答的每一类的优化列举几个典型技术，那就成功拿到了超出面试官预期的附加分。

例如：

分布式优化里的张量并行，流水线并行，NCCL 通信优化
低比特量化有 INT4/INT8 权重量化，AWQ 自适应量化，KV Cache 量化
显存优化中的 Paged Attention，FlashAttention
算子优化中有算子融合，GEMM 高性能算子
服务优化有 Continous Batching，Dynamic Batching，Async Serving

到此的回答已经让面试官满意了，但是如果面试官再追问一句，有没有了解过其他最新的优化技术？

这个时候就是考验功力的时候了，面试官这样问，其实是想探测一下你的能力边界，同时考察下你是不是经常看最新的论文和算法技术。

此时，面试官最期望的回答是，你能回答上最近几个月最新论文里提出的优化技术。

例如：投机采样（Speculative Decoding），美杜莎头（Medusa Heads），Lookahead Decoding，EAGLE等最新的算法，并且再选其中一个算法简述一下其中的核心思想。

我们以 Medusa Heads 算法为例，如果你能在面试现场画出下面这张图，并且告诉面试官，Medusa 的核心在于它在 LLM 的最后隐藏层上增加的多个 Heads，使它们并行工作，预测接下来的内容。

通过同时接受更多的 tokens 来增强解码过程的效率，从而减少了所需的解码步骤数量。相比于投机采样，它不需要一个额外的小模型，缺点是需要修改模型的训练代码。

到此，这个面试问题就属于满分回答了。

附上技术清单

在这里，我们想要强调的是：成功求职并不是一件难事，关键在于你是否做好了充分的准备。通过学习和掌握AI技术的相关知识和技能，了解面试中可能出现的问题和技巧，你就能够在面试中展现出自己的专业素养和实力，赢得面试官的青睐和认可。因此，让我们一起努力，用知识和技能武装自己，迎接AI时代的挑战和机遇吧！
有需要的朋友可以扫描下方二维码，免费获取更多相关资料！请添加图片描述
最后，祝愿所有转行、求职的同学都能够在AI产品面试中取得优异的成绩，找到心仪的工作！加油！

大模型基础面

在这里插入图片描述

大模型进阶面

在这里插入图片描述

大模型微调面

在这里插入图片描述

大模型langchain面

在这里插入图片描述

大模型推理面

在这里插入图片描述

更多面试题分享

在这里插入图片描述

关注

13
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
阿里面试官：大模型上线前为什么要做推理优化？985学妹的满分回答！

你知不知道产品级大模型系统里为什么要用推理优化这个东西？不少候选人，说自己项目里用了推理优化技术，但是其实他并不知道自己为什么要用这个东西。说白了就是为了用而用，或者看别人用他也用，从头到尾都没思考过。没有对自己的设计问过为什么的人，一定是平时没有思考的人，面试官对这类候选人印象通常很不好。因为面试官担心你进了团队之后只会木头木脑的干呆活儿，没有自己的思考。，你既然用了推理优化这个东西，你知不知道用了有什么好处，同时又有什么坏处？你当时做没做过调研，为什么要用它？
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。