AIGC时代算法工程师的面试秘籍（第三十二式2025.3.3-2025.3.16） |【三年面试五年模拟】-CSDN博客

本文链接：https://blog.csdn.net/Rocky6688/article/details/146461347

写在前面

【三年面试五年模拟】旨在挖掘&沉淀AI算法工程师在实习/校招/社招时所需的干货知识点与面试方法，力求让读者在获得心仪offer的同时，持续增强技术基本面。

欢迎大家关注Rocky的公众号：WeThinkIn
欢迎大家关注Rocky的知乎：Rocky Ding
AIGC算法工程师面试面经秘籍分享：WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star～
获取更多AI行业的前沿资讯与干货资源

**Rocky最新撰写10万字Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章：**https://zhuanlan.zhihu.com/p/684068402

大家好，我是Rocky。

又到了定期学习《三年面试五年模拟》文章的时候了！本周期我们持续更新了丰富的AIGC面试高频问答，依旧干货满满！诚意满满！

Rocky创办的《三年面试五年模拟》项目在持续帮助很多读者获得了心仪的AIGC科技公司和互联网大厂的算法岗offer，收到了大家非常多的好评，Rocky觉得很开心也很有意义！

现在时间来到2025年，随着DeepSeek的横空出世，AIGC时代的科技浪潮破纪录达到了新高峰，AI行业对AIGC技术人才的需求也日益旺盛。

**为了帮助大家在2025年的实习、秋招、春招以及社招求职时更加从容和有所依靠，Rocky将《三年面试五年模拟》项目进行重大战略架构升级，并承诺《三年面试五年模拟》项目将陪伴大家和码二代们的整个职业生涯，为大家在AI行业中的求职招聘保驾护航！**详细内容大家可以阅读：

《三年面试五年模拟》版本更新白皮书，迎接AIGC时代

Rocky已经将《三年面试五年模拟》项目的完整版构建在Github上：https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main，本周期更新的AIGC面试高频问答已经全部同步更新到项目中了，欢迎大家star！

本文是《三年面试五年模拟》项目的第式，考虑到易读性与文章篇幅，Rocky本次只从Github完整版项目中摘选了2025年3月3号-2025年3月16号更新的部分高频&干货面试知识点，并配以相应的参考答案（精简版），供大家学习探讨。点赞本文，并star咱们的Github项目，你就收获了半个offer！再转发本文，你就收获了0.75个offer！

So，enjoy（与本文的BGM一起食用更佳哦）：

正文开始

目录先行

AI行业招聘信息汇总

本期共有18大公司展开AIGC/传统深度学习/自动驾驶算法岗位招聘！

AI绘画基础：

什么是人脸面部属性识别任务？
热门AI绘画插件UltimateSDUpscale的工作原理是什么样的？

AI视频基础：

目前主流的AI视频大模型有哪些？
介绍一下Hunyuan-Video的数据标注策略

深度学习基础：

什么是Softplus激活函数？
分析一下卷积层的时间复杂度和空间复杂度

机器学习基础：

混合专家模型(MoE)和集成学习有哪些异同？
稀疏模型和稠密模型有哪些异同？

Python编程基础：

Python中使用async-def定义函数有什么作用？
在基于Python的AI服务中，如何规范API请求和数据交互的格式？

模型部署基础：

Ollama、vLLM、LMDeploy、TensorRT-LLM、SGLang之间有什么区别？
介绍一下Hopper架构GPU的概念

计算机基础：

介绍一下Linux中修改文件权限的命令
两台服务器之间如何进行内网传输数据？

开放性问题：

AI算法工程师如何将工作中的实践价值最大化？
如何给一个完全没有接触过传统深度学习的人介绍传统深度学习？

AI行业招聘信息汇总

叮咚买菜2025春季校招开启：https://ddmcxz.zhiye.com/campus/jobs
腾讯音乐娱乐集团2025实习生招聘全球开启：https://join.tencentmusic.com/campus/
中国三星春招开启：https://www.samsung.com.cn/about-us/careers/
泰隆银行2025春招开启：https://zjtlcb.zhiye.com/campus
叠纸游戏2025校招春季开启：https://career.papegames.com/campus/
贝壳找房2025届春招开启：https://campus.ke.com/campus
三七互娱2025春季校园招聘&实习生招聘开启：https://zhaopin.37.com/index.php?m=Home&c=recruit&a=recruit&recruit=1
小天才2025届春招开启：Https://xiaozhao.eebbk.com
小马智行Pony.ai 2025春招开启：https://campus.pony.ai/guideline
Shopee研发中心2025暑期实习&春招补招开启：https://careers.shopee.cn/
哔哩哔哩2025暑期实习&春招开启：https://jobs.bilibili.com/campus/
小米集团2025届春季校园招聘正式开启：http://hr.xiaomi.com/campus
平安人寿2025届春季校园招聘开启：https://campus.pingan.com/
PayPal暑期实习招聘开启：https://careers.pypl.com/university-hiring/university-overview/
完美世界25届春招&26届实习开启：https://jobs.games.wanmei.com/school_qa.html
吉比特&雷霆游戏25年春招&暑期实习开启：https://hr.g-bits.com/web/index.html#/
西山居2025春季校招开启：Job.seasungames.cn/campus#/
歌尔2025年春招开启：https://www.goertek.com/join/advertises_s.html

AI绘画基础

【一】什么是人脸面部属性识别任务？

人脸面部属性识别是计算机视觉领域的一项技术，旨在通过分析人脸图像自动检测和分类与面部相关的多种属性特征，例如：

生理属性：年龄、性别、种族；
表情与情绪：微笑、愤怒、悲伤；
装饰与状态：是否戴眼镜、口罩、帽子，是否有胡子；
几何特征：面部朝向、眼睛开合程度、嘴巴张合程度。

核心原理：
通过深度学习模型（如卷积神经网络）学习人脸图像中的局部与全局特征，将像素数据映射到高维语义空间，最终输出属性标签或数值预测。

通过面部属性识别，AI系统得以更“人性化”地理解用户需求，推动AIGC时代AI行业的持续创新。

通俗易懂的例子：智能美颜相机

场景：
当用户使用美颜相机拍照时，相机自动分析面部属性：

性别：调整美颜参数（如女性可能增强柔肤，男性保留轮廓感）；
年龄：年轻皮肤增强光泽，年长皮肤减少皱纹；
表情：检测微笑程度，自动触发拍照；
装饰：识别是否戴眼镜，避免美颜算法误处理镜片区域。

实现流程：
摄像头捕获图像 → 人脸检测 → 属性识别 → 根据属性调整滤镜 → 输出美化后的照片。

各领域应用案例

1. AIGC（AI生成内容）

案例：虚拟人像生成

应用：生成具有特定属性的虚拟人物，如设定“20岁亚洲女性，微笑，戴眼镜”。
技术细节：
- 使用扩散模型或者生成对抗网络（GAN），结合属性标签控制生成结果。
- 属性识别模型提供反馈，确保生成图像符合目标属性（如调整嘴部弧度以实现微笑）。

2. 传统深度学习

案例：多任务属性分类模型

应用：训练单一模型同时预测年龄、性别、表情等属性。
技术细节：
- 使用共享主干网络（如ResNet）提取特征，分支网络输出不同属性。
- 损失函数组合：分类损失（性别） + 回归损失（年龄） + 注意力机制（聚焦关键区域）。
代表研究：DeepFace（Facebook）。

3. 自动驾驶

案例：驾驶员状态监测系统（DMS）

应用：实时监测驾驶员疲劳、分心等危险状态。
技术细节：
- 面部属性识别：眼睛开合度（判断闭眼时长）、嘴巴张合（打哈欠）、头部姿态（是否低头看手机）。
- 决策逻辑：若检测到持续闭眼2秒以上，触发警报声；频繁哈欠则建议休息。
代表方案：特斯拉Autopilot的驾驶员监控、Mobileye的DMS技术。

【二】热门AI绘画插件UltimateSDUpscale的工作原理是什么样的？

UltimateSDUpscale 是一种基于 Stable Diffusion（SD）和GAN 框架的高效图像超分辨率技术，通过结合 GAN的超分辨率重建 、 超分辨率图像切片 、 切片图像图生图重绘 和 后处理增强，实现从低分辨率（如 512×512）到高分辨率（如 2048×2048）的超分辨率重建和细节增强技术。

步骤 1：输入图像进行超分辨率重建

目标：将低分辨率图像进行超分辨率重建，获得高分辨率图像。
操作：

GAN模型：将输入图像（如 512×512）使用基于GAN架构的超分模型，获得高分辨率（如 2048×2048）的图像。

步骤 2：超分辨率图像切片

目标：将获得的高分辨率图像进行切片，获得切片图像（如 256×256）。
操作：

设置切片图像的长宽进行切片：类似于传统深度学习时代的卷积操作，不断将高分辨率图像进行平滑的切片。

步骤 3：切片图像进行图生图重绘

目标：将切片图像输入SD模型中，进行图生成生图像的操作，从而增强切片图像的细节。
操作：

SD模型的图生图操作：将切片图像输入SD模型中进行图生图操作。

步骤 4：切片图像拼接融合与伪影抑制

目标：将切片图像重新拼接融合，并消除超分辨率过程中引入的伪影（如棋盘效应、噪声）。
操作：

Seams fix技术：沿着拼接缝隙，进行二次的生成修复。
频域滤波：对图像进行小波变换，抑制高频噪声（如色带效应），保留真实细节。

AI视频基础

【一】目前主流的AI视频大模型有哪些？

Wan2.1
Step-Video-T2V
Hunyuan-Video
Stable Video Diffusion（SVD）系列
Sora
可灵AI
LUMA
Gen系列
Stable Diffusion系列 + Animatediff系列

【二】介绍一下Hunyuan-Video的数据标注策略

在AI视频领域，数据标签的精确性和全面性在提高AI视频生成模型的提示遵循能力和输出质量方面起着至关重要的作用。以前的工作主要集中在提供简短的字幕或密集字幕。然而，这些方法因信息不完整、冗余话语和不准确而受到批评。

为了实现更高全面性、信息密度和准确性的字幕，Hunyuan-Video开发并应用了了一个内部的视觉语言模型（VLM），旨在为图像和视频生成结构化字幕。这些结构化字幕采用JSON格式，提供多维度的描述信息，从各个角度包括：

简短描述：捕捉场景的主要内容。
密集描述：详细描述场景内容，特别包括场景转换和摄像机运动，这些内容与视觉内容相结合，例如摄像机跟随某个主体。
背景：描述主体所处的环境。
风格：描述视频的风格，例如纪录片、电影、现实主义或科幻。
镜头类型：识别突出或强调特定视觉内容的视频镜头类型，例如航拍镜头、特写镜头、中镜头或长镜头。
照明：描述视频的照明条件。
氛围：传达视频的氛围，例如舒适、紧张或神秘。

同时Hunyuan-Video还训练了一个摄像机运动分类器，能够预测14种不同的摄像机运动类型，包括放大、缩小、向上摇摄、向下摇摄、左摇摄、右摇摄、向上倾斜、向下倾斜、向左倾斜、向右倾斜、向左旋转、向右旋转、静态镜头和手持镜头。

深度学习基础

【一】什么是Softplus激活函数？

一、数学定义与核心特点

Softplus函数定义为：

$f(x) = \ln(1 + e^x)$

它是ReLU激活函数 $\max(0, x)$ 的平滑近似版本，具有以下核心特性：

全局可导性：与ReLU在 $x = 0$ 处不可导不同，Softplus在所有实数域连续可导。
单边抑制性：对负值输出趋近于0，对正值输出近似线性增长。
导数特性：其导数为Sigmoid函数，即 $\frac{1}{1 + e^{-x}}$ ，梯度在 $x = 0$ 处为0.5。

下面是Softplus激活函数的详细图示：

Softplus激活函数图示

二、实际案例：房价预测模型

场景：构建一个预测房屋价格的回归模型，要求输出价格必须为非负数。
传统方案：使用ReLU作为输出层激活函数，但可能导致梯度在 $x = 0$ 处不连续，训练不稳定。
Softplus方案：将输出层替换为Softplus函数：

优势：平滑输出确保梯度稳定传递，避免ReLU的"死亡神经元"问题。

实现：最后一层代码示例（PyTorch）：

output = torch.nn.Sequential(
    torch.nn.Linear(128, 1),
    torch.nn.Softplus()  # 确保输出值>0
)

AIGC、传统深度学习、自动驾驶三大领域应用解析

1. AIGC（生成式AI）领域

应用场景：变分自编码器（VAE）的隐变量建模

问题：VAE需对潜在空间建模为正态分布，要求标准差参数 $\sigma > 0$ 。
解决方案：使用Softplus约束网络输出：
$\sigma = \text{Softplus}(w^Tx + b)$
优势：相比强制使用指数函数（ $e^x$ 可能数值爆炸），Softplus更稳定且可导。

典型模型：Stable Diffusion的VAE模块中，潜在变量分布参数化。

2. 传统深度学习

应用场景：概率预测任务的中间层

案例：多标签分类任务（如商品属性预测）中，标签间存在非互斥关系。

实现：在最后一层用Softplus代替Sigmoid：

# 多标签分类输出层
torch.nn.Sequential(
    torch.nn.Linear(256, 20),
    torch.nn.Softplus()  # 输出值域(0, +∞)，通过阈值判断标签存在性
)

优势：相比Sigmoid强制输出(0,1)，Softplus允许超1值存在，更灵活处理高置信度样本。

3. 自动驾驶

应用场景：LiDAR点云障碍物距离回归

需求：预测障碍物距离必须为正值，且需要平滑梯度以处理噪声数据。
方案：在回归头使用Softplus：
$\text{Distance} = \text{Softplus}(w^T \cdot \text{LiDAR-features})$
对比实验：相比ReLU，Softplus在低反射率物体（如黑色车辆）的预测误差降低约12%。

典型系统：特斯拉HydraNet中的占用网络（Occupancy Network）模块。

性能对比与选型建议

激活函数	计算成本	梯度稳定性	典型场景
ReLU	最低	在 $\leq 0$ 时梯度为0	大规模图像分类
LeakyReLU	低	避免神经元死亡	生成对抗网络
Softplus	较高	全区间平滑梯度	回归任务、概率建模

选型原则：优先ReLU系追求速度，选择Softplus需权衡计算开销与模型稳定性需求。

【二】分析一下卷积层的时间复杂度和空间复杂度

一、复杂度定义与计算公式

1. 时间复杂度（计算量）
时间复杂度衡量卷积层的计算资源消耗，通常用**浮点运算次数（FLOPs）**表示。
公式：
$\text{FLOPs} = 2 \times K^2 \times C_{\text{in}} \times C_{\text{out}} \times H_{\text{out}} \times W_{\text{out}}$

其中：

$K$ ：卷积核尺寸（假设为正方形核）
$C_{\text{in}}$ ：输入通道数
$C_{\text{out}}$ ：输出通道数
$H_{\text{out}}, W_{\text{out}}$ ：输出特征图的高度和宽度
注：乘法和加法各计1次运算，因此系数为2。

2. 空间复杂度（参数量与内存占用）
空间复杂度包含两部分：

参数量：模型存储的权重参数数量
$\text{Params} = K^2 \times C_{\text{in}} \times C_{\text{out}}$
激活内存：前向传播中特征图的存储需求
$\text{Memory} = C_{\text{out}} \times H_{\text{out}} \times W_{\text{out}} \times \text{bytes-per-element}$

（通常每个元素为4字节的float32类型）

二、通俗案例解析

案例：手机端图像分类模型
假设输入为RGB图像（3×224×224），使用一个卷积层：

卷积核：3×3，输出通道64，步长1，padding=1
输出尺寸：64×224×224

复杂度计算：

时间复杂度：
$\times 3^2 \times 3 \times 64 \times 224 \times 224 = 1.73 \times 10^9 \, \text{FLOPs}$
参数量：

$3^2 \times 3 \times 64 = 1,728 \, \text{参数}$
激活内存：

$64 \times 224 \times 224 \times 4 \, \text{Bytes} = 12.58 \, \text{MB}$

优化对比：
若改用深度可分离卷积（Depthwise Separable Convolution）：

参数量降至 $3^2 \times 3 + 3 \times 64 = 27 + 192 = 219$
FLOPs降至 $3^2 \times 3 \times 224^2 + 3 \times 64 \times 224^2 = 0.13 \times 10^9 \, \text{FLOPs}$
计算量减少约13倍，适用于移动端部署。

机器学习基础

【一】混合专家模型(MoE)和集成学习有哪些异同？

混合专家模型（Mixture of Experts, MoE）和集成学习（Ensemble Learning）都是通过组合多个子模型提升整体性能的方法，但两者的设计思想、训练方式和应用场景存在显著差异。

一、核心异同分析

相同点：

多模型协作：均通过多个子模型的协同工作提升性能。
降低过拟合风险：通过组合不同模型的预测结果，增强泛化能力。
分治思想：将复杂任务分解为多个子问题，由不同模型处理。

不同点：

维度	混合专家模型（MoE）	集成学习
核心机制	动态路由机制（门控网络分配权重）	静态组合（投票、平均等）
训练方式	联合训练（门控网络和专家共同优化）	独立训练（基学习器独立后组合）
子模型关系	专家差异化分工（不同专家处理不同输入）	基学习器同质或异质，但无显式分工
计算效率	稀疏激活（每次推理仅激活部分专家）	全模型激活（所有基学习器参与预测）
应用场景	输入相关的任务分治（如大语言模型）	输出相关的预测融合（如分类、回归）

二、实际案例对比

案例背景：机器翻译任务

集成学习
使用多个独立的翻译模型（如Transformer、LSTM、BERT），每个模型对同一输入生成翻译结果，最终通过投票或加权平均选择最优结果。例如：5个模型对"apple"的翻译结果中，4个输出"苹果"，1个输出"苹果公司"，则最终结果为"苹果"。
混合专家模型（MoE）
设计多个专家（如语法专家、术语专家、上下文专家），门控网络根据输入句子动态分配权重。例如：输入"Apple is a fruit"时，语法专家权重0.6，术语专家权重0.4；输入"Apple released iPhone"时，术语专家权重0.8，上下文专家权重0.2。最终输出由加权后的专家结果融合生成。

三、领域应用场景

1. AIGC（生成式AI）

MoE应用：
GPT-4中采用稀疏MoE结构，不同专家处理不同语义场景（如代码生成、诗歌创作、逻辑推理）。例如生成代码时，门控网络激活编程语法专家；生成故事时激活叙事风格专家。
优势：模型容量大但推理成本可控（仅激活部分参数）。
集成学习应用：
多模型生成结果融合（如DALL·E 2生成图像时，结合CLIP排序和扩散模型生成结果）。
优势：提升生成结果的多样性和稳定性。

2. 传统深度学习

MoE应用：
图像分类任务中，专家分工处理不同物体类别（如动物、交通工具），门控网络根据图像内容动态选择专家。
案例：Google的Vision MoE模型在ImageNet上实现更高精度。
集成学习应用：
随机森林通过多棵决策树的投票结果提升分类鲁棒性；Stacking在Kaggle竞赛中广泛用于融合CNN、ResNet等模型的预测结果。

3. 自动驾驶

MoE应用：
不同专家处理不同驾驶场景（如高速巡航、城市拥堵、紧急避障），门控网络根据传感器输入（激光雷达、摄像头）动态切换专家。
案例：特斯拉的HydraNet架构使用类似思想处理多任务学习。
集成学习应用：
融合激光雷达、摄像头、毫米波雷达的感知结果（如目标检测中结合YOLO和PointPillars模型的输出）。
优势：提升系统在恶劣天气或传感器故障时的鲁棒性。

四、总结

选择MoE：任务需要动态分治（输入差异大）、模型容量要求高且需控制计算成本时（如AIGC）。
选择集成学习：需提升模型稳定性、结果多样性或处理不确定性时（如自动驾驶多传感器融合）。
两者的结合（如MoE+集成学习）也是前沿方向：例如在MoE的门控网络中引入集成决策机制，进一步提升复杂任务的处理能力。

【二】稀疏模型和稠密模型有哪些异同？

一、核心异同分析

相同点：

目标一致：均旨在通过参数学习解决复杂任务（如分类、生成、预测）。
依赖数据驱动：需通过大量数据训练优化模型参数。
可扩展性：均可通过增加参数量提升模型能力（但实现方式不同）。

不同点：

维度	稀疏模型	稠密模型
参数激活方式	部分参数激活（如MoE中按输入激活部分专家）	全参数激活（所有参数参与计算）
计算效率	高（仅计算必要部分，适合大规模模型）	低（计算全部参数，资源消耗大）
模型容量	容量大但计算成本可控（参数总量大，激活量小）	容量与计算成本正相关（参数量=计算量）
训练难度	需设计动态路由机制，训练复杂度高	端到端训练，技术成熟度高
典型应用	大规模AIGC生成模型、AI多模态任务场景	传统深度学习场景中的分类、分割、检测以及小规模回归任务

二、通俗案例：图书馆检索系统

稠密模型：
类比于传统图书馆，用户每次借书时，管理员必须检查每一本书是否匹配需求。
问题：效率低，耗时久（对应稠密模型的高计算成本）。
稀疏模型：
图书馆引入智能分类系统，用户输入关键词（如“WeThinkIn”），系统仅扫描相关区域的书架。
优势：快速定位目标，节省资源（对应稀疏模型的动态激活机制）。

三、领域应用场景

1. AIGC（生成式AI）

稀疏模型：
- 案例：Google的Switch Transformer（MoE架构），通过稀疏激活将万亿参数模型的推理成本降至可行范围。
- 场景：生成任务中动态选择专家（如文本生成时激活“叙事专家”，代码生成时激活“语法专家”）。
- 优势：支持超大规模模型（如GPT-4）的高效部署。
稠密模型：
- 案例：Stable Diffusion的基础UNet网络，全参数参与图像生成计算。
- 场景：单任务生成（如固定风格的图像生成），依赖端到端训练简化流程。
- 局限：模型规模受限，难以直接扩展到万亿参数。

2. 传统深度学习

稀疏模型：
- 推荐系统：处理高维稀疏特征（如用户ID、商品ID），仅激活用户历史行为相关的特征子网络。
- 案例：YouTube的推荐模型使用稀疏注意力机制，降低长序列处理的计算量。
稠密模型：
- 图像分类：ResNet、VGG等经典模型，全连接层和卷积层参数全部激活。
- 优势：结构简单，适合中小规模数据（如CIFAR-10分类）。

3. 自动驾驶

稀疏模型：
- 实时感知：激光雷达点云处理中，仅激活与当前障碍物相关的3D检测分支。
- 案例：Waymo的LATTE模型，稀疏激活不同传感器融合路径以降低延迟。
- 优势：满足实时性要求（如100ms内决策）。
稠密模型：
- 端到端驾驶：输入图像直接映射到控制信号（如方向盘角度），全参数参与计算。
- 案例：NVIDIA的PilotNet，依赖稠密CNN处理摄像头输入。
- 局限：难以扩展复杂多任务（如同时处理检测、预测、规划）。

四、总结：如何选择模型？

场景需求	推荐模型	原因
超大规模参数+有限算力	稀疏模型	通过稀疏激活降低计算成本
简单任务+高训练稳定性需求	稠密模型	端到端训练成熟可靠
多任务/动态输入（如AIGC）	稀疏模型	专家分工适配不同子任务
低延迟实时系统（如自动驾驶）	稀疏模型	仅计算必要部分，提升响应速度
中小规模数据+快速迭代	稠密模型	避免稀疏模型复杂的路由机制设计

五、前沿趋势：稀疏与稠密结合

技术方向：
1. 稠密模型稀疏化：通过剪枝、量化将稠密模型转化为稀疏结构（如TensorRT的稀疏推理优化）。
2. 稀疏模型稠密化：在训练阶段使用稠密参数，推理时动态稀疏化（如Google的Pathways系统）。
应用价值：
兼顾模型容量与推理效率，适用于AIGC、传统深度学习以及自动驾驶的高性能需求场景。

Python编程基础

【一】Python中使用async-def定义函数有什么作用？

一、`async def` 的作用

async def 是 Python 中定义异步函数的关键字，用于声明一个协程（coroutine）。它的核心作用是：

非阻塞并发：允许在等待 I/O 操作（如网络请求、文件读写）时释放 CPU，让其他任务运行。
提升效率：适合高延迟、低计算的场景（如 Web 服务器处理请求），通过事件循环（Event Loop）管理多个任务的切换。

与同步函数的区别：

同步函数遇到 I/O 时会“卡住”整个线程，直到操作完成。
异步函数遇到 await 时会暂停，让事件循环执行其他任务，直到 I/O 完成再恢复。

通过合理使用 async def，可以在不增加硬件成本的情况下显著提升AI系统吞吐量和响应速度。

二、生动例子：餐厅服务员点餐

假设一个餐厅有 1 个服务员和 3 个顾客：

同步场景：服务员依次为每个顾客点餐，必须等当前顾客完全点完才能服务下一个。
异步场景：服务员在顾客看菜单时（等待时间）去服务其他顾客，最终总时间更短。

代码实现：

import asyncio

async def order_customer(name):
    print(f"顾客 {name} 开始看菜单...")
    await asyncio.sleep(2)  # 模拟看菜单的等待时间
    print(f"顾客 {name} 点餐完成！")

async def main():
    await asyncio.gather(
        order_customer("Alice"),
        order_customer("Bob"),
        order_customer("Charlie"),
    )

asyncio.run(main())

输出：

顾客 Alice 开始看菜单...
顾客 Bob 开始看菜单...
顾客 Charlie 开始看菜单...
（等待2秒）
顾客 Alice 点餐完成！
顾客 Bob 点餐完成！
顾客 Charlie 点餐完成！

三、在 AIGC 中的应用

场景：同时处理多个用户的文本生成请求。
案例：使用异步框架（如 FastAPI）处理 GPT 请求，当一个请求等待模型生成时，处理另一个请求。

from fastapi import FastAPI
import asyncio

app = FastAPI()

async def generate_text(prompt):
    # 模拟调用大模型生成文本（假设有延迟）
    await asyncio.sleep(1)
    return f"Generated text for: {prompt}"

@app.post("/generate")
async def handle_request(prompt: str):
    result = await generate_text(prompt)
    return {"result": result}

# 启动服务后，多个用户请求可以并发处理

四、在传统深度学习中的应用

场景：异步加载和预处理数据，减少训练时的等待时间。
案例：使用 aiofiles 异步读取文件，同时用多进程进行数据增强。

import aiofiles
import asyncio

async def async_load_data(file_path):
    async with aiofiles.open(file_path, 'r') as f:
        data = await f.read()
    # 异步预处理（如解码图像）
    return preprocess(data)

async def data_pipeline(file_paths):
    tasks = [async_load_data(path) for path in file_paths]
    return await asyncio.gather(*tasks)

# 在训练循环外异步预加载下一批数据

五、在自动驾驶中的应用

场景：实时处理多传感器（摄像头、雷达、LiDAR）的输入数据。
案例：异步接收传感器数据并并行处理。

async def process_camera(frame):
    await asyncio.sleep(0.1)  # 模拟图像处理耗时
    return detect_objects(frame)

async def process_lidar(point_cloud):
    await asyncio.sleep(0.05)  # 模拟点云处理耗时
    return cluster_points(point_cloud)

async def main_loop():
    while True:
        camera_data = get_camera_frame()
        lidar_data = get_lidar_points()
        # 并行处理传感器数据
        objects, clusters = await asyncio.gather(
            process_camera(camera_data),
            process_lidar(lidar_data)
        )
        make_decision(objects, clusters)

【二】在基于Python的AI服务中，如何规范API请求和数据交互的格式？

一、规范API交互的核心方法

1. 使用 `FastAPI` + `pydantic` 框架

FastAPI：现代高性能Web框架，自动生成API文档（Swagger/Redoc）
pydantic：通过类型注解定义数据模型，实现自动验证和序列化

pydantic 库的 BaseModel 能够定义一个数据验证和序列化模型，用于规范 API 请求或数据交互的格式。通过 pydantic.BaseModel，AI开发者可以像设计数据库表结构一样严谨地定义数据交互协议，尤其适合需要高可靠性的工业级AI服务应用场景。

2. 定义三层结构

# 请求模型：规范客户端输入
class RequestModel(BaseModel): ...

# 响应模型：统一返回格式
class ResponseModel(BaseModel): ...

# 错误模型：标准化错误信息
class ErrorModel(BaseModel): ...

二、通俗示例：麻辣香锅订购系统

假设我们开发一个AI麻辣香锅订购服务，规范API交互流程：

1. 定义数据模型

from pydantic import BaseModel

class FoodOrder(BaseModel):
    order_id: int          # 必填字段
    dish_name: str = "麻辣香锅"  # 默认值
    spicy_level: int = 1   # 辣度默认1级
    notes: str = None      # 可选备注

# 用户提交的 JSON 数据会自动验证：
order_data = {
    "order_id": 123,
    "spicy_level": 3
}
order = FoodOrder(**order_data)  # dish_name 自动填充为默认值
print(order.dict())  
# 输出：{'order_id': 123, 'dish_name': '麻辣香锅', 'spicy_level': 3, 'notes': None}

三、在 AIGC 中的应用

场景：规范图像生成 API 的请求参数
案例：Stable Diffusion 服务接收生成请求时，验证参数合法性：

from fastapi import FastAPI
from pydantic import BaseModel

app = FastAPI()

class ImageGenRequest(BaseModel):
    prompt: str                   # 必填提示词
    steps: int = 20               # 默认生成步数
    callback_url: str = None      # 生成完成后回调地址

@app.post("/generate")
async def generate_image(request: ImageGenRequest):
    # 参数已自动验证合法
    image = call_sd_model(request.prompt, request.steps)
    if request.callback_url:
        send_to_callback(image, request.callback_url)
    return {"status": "success"}

四、在传统深度学习中的应用

场景：训练任务配置管理
案例：定义训练参数模板，避免配置文件错误：

class TrainingConfig(BaseModel):
    dataset_path: str             # 必填数据集路径
    batch_size: int = 32          # 默认批次大小
    learning_rate: float = 1e-4   # 默认学习率
    use_augmentation: bool = True # 是否启用数据增强

# 从 YAML 文件加载配置并自动验证
config_data = load_yaml("config.yaml")
config = TrainingConfig(**config_data)
train_model(config.dataset_path, config.batch_size)

五、在自动驾驶中的应用

场景：传感器数据接收协议
案例：验证来自不同传感器的数据格式：

class SensorConfig(BaseModel):
    sensor_type: str              # 传感器类型（LiDAR/Camera）
    ip_address: str               # 传感器IP地址
    frequency: float = 10.0       # 默认采样频率(Hz)
    calibration_file: str = None  # 可选标定文件路径

# 接收传感器注册请求
sensor_data = {
    "sensor_type": "LiDAR",
    "ip_address": "192.168.1.100"
}
config = SensorConfig(**sensor_data)  # 自动填充默认频率
connect_sensor(config.ip_address, config.frequency)

六、API规范化带来的收益

维度	传统方式问题	规范化方案优势
开发效率	需要手动编写验证逻辑	声明式定义，减少重复代码
错误排查	调试困难，错误信息不明确	自动返回具体字段验证失败原因
协作成本	前后端需要口头约定格式	Swagger文档自动同步
安全性	可能接收非法参数导致崩溃	输入过滤防止注入攻击
扩展性	添加新字段需要多处修改	只需修改模型类定义

模型部署基础

【一】Ollama、vLLM、LMDeploy、TensorRT-LLM、SGLang之间有什么区别？

在AIGC时代中，对大模型进行部署是不可缺少的一环，在DeepSeek系列火爆全球后，我们需要掌握Ollama、vLLM、LMDeploy、TensorRT-LLM、SGLang五个主流大模型部署工具的异同。

我们只有了解不同部署工具在易用性、性能和适用场景上的差异化优势，才能结合实际需求中的响应速度、硬件资源和部署复杂度进行权衡选择。

一、核心特性对比

工具名称	核心定位	优势	局限性	典型适用场景
Ollama	轻量级LLM本地部署框架	安装简单、跨平台支持、内存占用低、支持多模态模型	并发能力弱、国内下载速度慢	个人开发、本地测试、原型验证
vLLM	高性能LLM推理引擎	高吞吐量、支持多GPU并行、内存优化（PagedAttention）	配置复杂、显存占用高	企业级高并发服务、在线问答平台
LMDeploy	端到端LLM服务优化工具链	支持模型压缩（KV Cache量化）、长上下文优化、多框架兼容	生态相对较小、文档资源有限	移动端部署、边缘计算场景
TensorRT-LLM	NVIDIA GPU专用推理加速框架	极致低延迟（TTFT优化）、支持混合精度、与TensorRT深度集成	模型转换复杂、依赖NVIDIA生态	自动驾驶实时决策、金融高频交易
SGLang	流式交互优化框架	支持复杂逻辑链式调用、异步流式响应、自定义语法扩展	学习成本较高、社区活跃度较低	AIGC多轮对话、游戏NPC交互系统

二、实际案例解析

1. Ollama案例：个人开发者本地调试

场景：开发者需要在笔记本电脑上快速测试DeepSeek-R1模型的代码生成能力。
操作：通过ollama run DeepSeek-R1一键启动模型，结合Zed AI编辑器实现代码补全。
优势：5分钟内完成环境搭建，内存占用仅4GB，支持离线运行保障代码隐私。

2. vLLM案例：电商大促智能客服

场景：双十一期间需处理每秒上千次的用户咨询。
配置：使用4台A100 GPU部署vLLM集群，通过vllm --tensor-parallel-size 4启动分布式推理。
效果：吞吐量提升3倍，响应延迟稳定在200ms内，支撑日均千万级查询。

3. TensorRT-LLM案例：自动驾驶路径规划

场景：车辆需在10ms内完成障碍物轨迹预测。
优化：将LSTM模型转换为TensorRT-LLM引擎，启用FP16精度和动态批处理。
结果：首包延迟（TTFT）降低至5ms，较原始PyTorch实现提速8倍。

三、领域应用分析

AIGC领域

Ollama：本地运行Stable Diffusion文本生成图像流水线，避免云服务API调用成本。
vLLM：支撑AI直播带货脚本批量生成，单GPU可并行处理50个主播的个性化文案需求。
SGLang：构建多模态创作工作流（如「文本→分镜→配乐」链式生成），通过语法规则控制创作逻辑。

传统深度学习

LMDeploy：将70B参数的模型量化至4-bit后部署至手机端，实现离线翻译APP。
TensorRT-LLM：在医疗影像分析中，将ResNet-50推理速度提升至每秒3000帧，满足实时诊断需求。

自动驾驶

vLLM：用于车载语音助手，支持20路并发语音指令解析（如「导航到最近的充电站并播放新闻」）。
TensorRT-LLM：在百度Apollo系统中实现毫秒级车道线预测，较传统MPC控制器响应速度提升5倍。

四、选型建议

考量维度	推荐工具	理由
快速原型开发	Ollama	无需复杂配置，支持即时模型切换与本地调试
高并发生产环境	vLLM	PagedAttention技术显著降低显存碎片，支撑千级QPS
边缘设备部署	LMDeploy + TensorRT-LLM	量化与硬件加速结合，实现大模型在Jetson设备上的实时运行
复杂交互逻辑	SGLang	支持状态保持与条件分支，适合多轮对话和流程控制场景

【二】介绍一下Hopper架构GPU的概念

Hopper架构是NVIDIA推出的新一代GPU架构，专为AI和高性能计算（HPC）设计，以高效处理大规模并行计算任务为核心目标。其核心技术包括Transformer引擎、第四代NVLink、高密度计算单元等，显著提升了AI模型的训练和推理效率。

核心技术创新

Transformer引擎
- 功能：通过混合FP8和FP16精度动态调整计算模式，加速Transformer类模型（如DeepSeek、GPT、BERT）的训练和推理。
- 优势：相比前代架构，AI训练速度提升3倍以上，显存占用降低30%。
第四代NVLink
- 功能：支持多GPU间高速互联，双向带宽达900GB/s，是PCIe 5.0的7倍。
- 应用场景：多卡集群训练时减少通信瓶颈，适用于千亿参数大模型的分布式训练。
高密度计算单元
- 制程与规模：采用台积电4N工艺，集成超过800亿晶体管，计算密度提升50%。

通俗案例解析

案例：大语言模型推理加速
假设需部署一个千亿参数的GPT模型进行实时对话服务：

传统架构：受限于显存带宽和计算单元效率，推理延迟可能高达数百毫秒。
Hopper架构：通过Transformer引擎的FP8精度优化和KV缓存压缩，显存带宽利用率提升至3000GB/s（如H800 GPU），推理延迟降至几十毫秒，同时支持更高并发请求。

领域应用场景

1. AIGC（生成式AI）

核心需求：高吞吐量、低延迟的文本/图像生成。
Hopper应用：
- 文本生成：基于Transformer引擎优化注意力机制，支持Stable Diffusion、DeepSeek、GPT-4等模型快速生成高质量内容。
- 图像生成：利用FP8精度加速扩散模型（如DALL·E 3），单卡可同时处理多批次高分辨率图像生成任务。

2. 传统深度学习

核心需求：大规模数据训练与高效参数更新。
Hopper应用：
- 分布式训练：通过NVLink构建多机多卡集群，千卡级训练任务通信效率提升9倍，训练时间缩短60%（如YOLOv5、ResNet-152训练）。
- 混合精度优化：FP8精度下，BERT等模型的微调能耗降低40%。

3. 自动驾驶

核心需求：实时处理多模态传感器数据（LiDAR、摄像头）。
Hopper应用：
- 多任务并行：利用MIG（多实例GPU）技术将单卡分割为多个独立实例，同时处理目标检测、路径规划、语义分割任务。
- 低延迟推理：基于高带宽显存（HBM3），处理单帧LiDAR点云（32x32x32体素）的推理延迟<10ms，满足实时决策需求。

性能对比与优势总结

指标	Hopper（H800）	前代架构（A100）	优势提升
显存带宽	3000 GB/s	2039 GB/s	+47%
FP8算力峰值	580 TFLOPS	312 TFLOPS	+86%
多卡互联带宽	900 GB/s	600 GB/s	+50%
能耗比（TOPS/W）	3.5	2.1	+66%

Hopper架构通过硬件-软件协同优化，正在重塑AI基础设施的效能边界，成为AIGC、传统深度学习、自动驾驶等领域的核心算力引擎。

计算机基础

Rocky从工业界、学术界、竞赛界以及应用界角度出发，总结归纳AI行业所需的计算机基础干货知识。这些干货知识不仅能在面试中帮助我们，还能让我们在AI行业中提高工作效率。

【一】介绍一下Linux中修改文件权限的命令

一、Linux 文件权限修改命令详解

1. 核心命令

chmod（修改权限）
- 符号模式：u/g/o/a（用户/组/其他/全部） + +/-/=（添加/移除/设置） + r/w/x（读/写/执行）
  示例：chmod u+x script.sh（赋予所有者执行权限）
- 数字模式：三位八进制数（如 755），分别代表 所有者、组、其他用户 的权限组合（r=4, w=2, x=1）。
  示例：chmod 755 model.pth → 所有者 rwx，组和其他用户 r-x。
chown（修改所有者/组）
示例：chown alice:ai_team model.log（将文件所有者和组改为 alice 和 ai_team）。
chgrp（仅修改组）
示例：chgrp researchers data/（将目录所属组设为 researchers）。

2. 实际案例：团队协作中的权限管理

场景：
某 AI 团队需要共享训练脚本和数据集，但需确保：

脚本（如 train.py）：仅所有者可修改，其他成员可读可执行。
数据集（如 dataset/）：组成员可读写，其他用户无权限。
日志（如 logs/）：所有成员可读，但仅运维组可删除。

操作：

# 1. 脚本权限：rwxr-xr-x（所有者可执行，其他用户只读和执行）
chmod 755 train.py

# 2. 数据集目录：组可读写，其他用户无权限（rwxrwx---）
chmod 770 dataset/
chgrp ai_team dataset/

# 3. 日志目录：组成员可读写，其他用户只读，并设置 Sticky Bit（仅所有者可删除文件）
chmod 1774 logs/

二、在 AI 领域中的实际应用

1. AIGC（生成式 AI）场景

应用背景：
多团队协作开发扩散模型（如 Stable Diffusion），需隔离不同角色的权限：
- 算法工程师：可修改模型训练脚本（chmod 750 train.py）。
- 数据工程师：仅能读写训练数据目录（chgrp data_team /data/images）。
- 运维人员：管理推理服务日志（chmod 640 inference.log）。
意义：
防止误删或篡改关键模型文件，保障生成结果的一致性（如保护预训练权重文件权限为 600）。

2. 传统深度学习场景

应用背景：
分布式训练集群中，权限管理用于：
- 训练脚本：确保仅调度节点可执行（chmod +x distributed_train.sh）。
- 共享存储：组内成员可读写中间结果（chmod 775 /shared_results）。
- 敏感数据：限制非授权用户访问标注数据（chmod 600 labels.txt）。
意义：
避免训练任务因权限冲突中断（如权限错误导致数据加载失败），同时保护标注数据隐私。

3. 自动驾驶场景

应用背景：
车端-云端协同系统中，权限控制用于：
- 传感器数据：仅车载系统用户可读写（chown caros:caros /sensor_data）。
- 实时日志：设置 Sticky Bit 防止日志被非特权进程删除（chmod +t /var/log/autodrive）。
- OTA 更新包：仅校验通过后赋予执行权限（chmod 744 update.bin）。
意义：
确保行车关键数据的安全性（如防止恶意篡改高精地图权限），同时满足车规级系统的实时性要求。

三、面试回答技巧

强调系统思维：
“权限管理是 AI 工程化的基础设施，直接影响团队协作效率和系统安全性。例如在自动驾驶中，权限错误可能导致传感器数据泄漏或 OTA 升级失败。”
结合调试经验：
“我曾遇到因 Permission Denied 导致训练任务卡死的问题，最终通过 chmod 修复数据集目录权限，并添加 set -e 和错误日志监控。”
延伸扩展：
- 特殊权限：如 SUID 用于部署工具链（如 Docker 容器内的权限继承）。
- ACL 高级控制：复杂场景下使用 setfacl 精细化授权。
- 安全合规：符合 GDPR/ISO 27001 的数据访问权限设计。

通过将 Linux 权限命令与 AI 行业场景结合，既能展示技术深度，又能体现工程化思维，这正是算法岗面试中脱颖而出的关键！

【二】两台服务器之间如何进行内网传输数据？

一、SFTP 内网数据传输

SFTP（SSH File Transfer Protocol）是基于 SSH 的安全文件传输协议，适用于加密传输敏感数据。以下是具体操作流程：

1. 配置 SSH 服务

1. SFTP 传输文件

连接服务端：

sftp -P 22 user@server_ip       # 默认端口可省略 -P

常用命令：

put /local/file.txt /remote/    # 上传文件
get /remote/file.txt /local/    # 下载文件
mkdir /remote/data              # 创建远程目录
ls -l                           # 列出远程文件
exit                            # 退出

递归传输目录：
使用 scp（基于 SSH 的简化命令）：

scp -r /local/dir user@server_ip:/remote/dir  # 递归传输目录
scp -C file.zip user@server_ip:/remote/       # -C 启用压缩

2. 安全性增强

限制 IP 访问：
在服务端 /etc/ssh/sshd_config 中配置：

AllowUsers user@192.168.1.0/24  # 仅允许内网 IP 段访问

禁用密码登录：
修改 sshd_config 后重启服务：

PasswordAuthentication no       # 仅允许密钥认证
sudo systemctl restart sshd

二、实际案例：分布式训练中的安全数据同步

场景：
在训练多模态大模型（如 GPT-4）时，需将服务器 A 的预处理数据集（含敏感文本）安全传输至服务器 B 的 GPU 集群。
操作：

配置免密登录：

# 在服务器 B（客户端）生成密钥并上传至服务器 A（服务端）
ssh-keygen -t rsa
ssh-copy-id -i ~/.ssh/id_rsa.pub data_engineer@192.168.1.1

压缩并传输数据：

# 从服务器 B 拉取数据（服务端 IP: 192.168.1.1）
scp -C -r data_engineer@192.168.1.1:/datasets/multimodal /local_training/

验证完整性：

# 生成校验和并比对
sha256sum /datasets/multimodal/*.tar > checksum.txt
scp data_engineer@192.168.1.1:/datasets/multimodal/checksum.txt .
sha256sum -c checksum.txt      # 检查文件是否完整

三、在 AI 领域中的实际应用

1. AIGC（生成式 AI）场景

应用背景：
训练 Diffusion 模型时，需在多台服务器间传输：
- 版权素材库：使用 SFTP 加密传输受版权保护的训练图片/视频，避免明文泄露。
- 模型权重同步：将微调后的模型安全分发至推理服务器（如 scp model.ckpt user@inference_server:/models）。
意义：
符合数据隐私法规（如 GDPR），防止生成内容被恶意篡改。

2. 传统深度学习场景

应用背景：
跨团队协作中的敏感数据处理：
- 医疗数据共享：医院内网中通过 SFTP 传输脱敏的 CT 扫描数据至训练服务器。
- 联邦学习参数同步：各参与方通过 SFTP 加密上传本地模型梯度至聚合服务器。
意义：
满足 HIPAA 等医疗数据合规要求，保障隐私。

3. 自动驾驶场景

应用背景：
车端与云端的数据交互：
- 传感器日志回传：通过 SFTP 将车载摄像头/雷达的原始数据加密上传至云端分析平台。
- 高精地图更新：增量下载加密的地图差分文件至车载计算单元（如 sftp get /maps/update.bin）。
意义：
防止 CAN 总线数据被中间人攻击，满足 ISO 21434 汽车网络安全标准。

四、面试回答技巧

结合项目经验：
“在上一份工作中，我们通过 SFTP + 密钥认证，每日将 10TB 的自动驾驶路测数据从边缘服务器同步至云端，传输错误率降至 0.01%。”
延伸技术栈：
- 跳板机架构：通过 Bastion Host 中转访问生产环境服务器，增强安全性。
- 证书双向认证：使用 OpenSSL 签发客户端/服务端证书，实现双向验证。
行业趋势：
“在 AIGC 领域，未来可能结合加密信道与 SFTP，应对针对AIGC大模型的窃取攻击。”