AIGC时代算法工程师的面试秘籍(第三十二式2025.3.3-2025.3.16) |【三年面试五年模拟】

写在前面

【三年面试五年模拟】旨在挖掘&沉淀AI算法工程师在实习/校招/社招时所需的干货知识点与面试方法,力求让读者在获得心仪offer的同时,持续增强技术基本面。

欢迎大家关注Rocky的公众号:WeThinkIn
欢迎大家关注Rocky的知乎:Rocky Ding
AIGC算法工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~
获取更多AI行业的前沿资讯与干货资源

**Rocky最新撰写10万字Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章:**https://zhuanlan.zhihu.com/p/684068402


大家好,我是Rocky。

又到了定期学习《三年面试五年模拟》文章的时候了!本周期我们持续更新了丰富的AIGC面试高频问答,依旧干货满满!诚意满满!

Rocky创办的《三年面试五年模拟》项目在持续帮助很多读者获得了心仪的AIGC科技公司和互联网大厂的算法岗offer,收到了大家非常多的好评,Rocky觉得很开心也很有意义!

现在时间来到2025年,随着DeepSeek的横空出世,AIGC时代的科技浪潮破纪录达到了新高峰,AI行业对AIGC技术人才的需求也日益旺盛

**为了帮助大家在2025年的实习、秋招、春招以及社招求职时更加从容和有所依靠,Rocky将《三年面试五年模拟》项目进行重大战略架构升级,并承诺《三年面试五年模拟》项目将陪伴大家和码二代们的整个职业生涯,为大家在AI行业中的求职招聘保驾护航!**详细内容大家可以阅读:

《三年面试五年模拟》版本更新白皮书,迎接AIGC时代

Rocky已经将《三年面试五年模拟》项目的完整版构建在Github上:https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main,本周期更新的AIGC面试高频问答已经全部同步更新到项目中了,欢迎大家star!

本文是《三年面试五年模拟》项目的第式,考虑到易读性与文章篇幅,Rocky本次只从Github完整版项目中摘选了2025年3月3号-2025年3月16号更新的部分高频&干货面试知识点,并配以相应的参考答案(精简版),供大家学习探讨。点赞本文,并star咱们的Github项目,你就收获了半个offer!再转发本文,你就收获了0.75个offer!

So,enjoy(与本文的BGM一起食用更佳哦):

正文开始

目录先行

AI行业招聘信息汇总

  1. 本期共有18大公司展开AIGC/传统深度学习/自动驾驶算法岗位招聘!

AI绘画基础:

  1. 什么是人脸面部属性识别任务?

  2. 热门AI绘画插件UltimateSDUpscale的工作原理是什么样的?

AI视频基础:

  1. 目前主流的AI视频大模型有哪些?

  2. 介绍一下Hunyuan-Video的数据标注策略

深度学习基础:

  1. 什么是Softplus激活函数?

  2. 分析一下卷积层的时间复杂度和空间复杂度

机器学习基础:

  1. 混合专家模型(MoE)和集成学习有哪些异同?

  2. 稀疏模型和稠密模型有哪些异同?

Python编程基础:

  1. Python中使用async-def定义函数有什么作用?

  2. 在基于Python的AI服务中,如何规范API请求和数据交互的格式?

模型部署基础:

  1. Ollama、vLLM、LMDeploy、TensorRT-LLM、SGLang之间有什么区别?

  2. 介绍一下Hopper架构GPU的概念

计算机基础:

  1. 介绍一下Linux中修改文件权限的命令

  2. 两台服务器之间如何进行内网传输数据?

开放性问题:

  1. AI算法工程师如何将工作中的实践价值最大化?

  2. 如何给一个完全没有接触过传统深度学习的人介绍传统深度学习?

AI行业招聘信息汇总

  1. 叮咚买菜2025春季校招开启:https://ddmcxz.zhiye.com/campus/jobs
  2. 腾讯音乐娱乐集团2025实习生招聘全球开启:https://join.tencentmusic.com/campus/
  3. 中国三星春招开启:https://www.samsung.com.cn/about-us/careers/
  4. 泰隆银行2025春招开启:https://zjtlcb.zhiye.com/campus
  5. 叠纸游戏2025校招春季开启:https://career.papegames.com/campus/
  6. 贝壳找房2025届春招开启:https://campus.ke.com/campus
  7. 三七互娱2025春季校园招聘&实习生招聘开启:https://zhaopin.37.com/index.php?m=Home&c=recruit&a=recruit&recruit=1
  8. 小天才2025届春招开启:Https://xiaozhao.eebbk.com
  9. 小马智行Pony.ai 2025春招开启:https://campus.pony.ai/guideline
  10. Shopee研发中心2025暑期实习&春招补招开启:https://careers.shopee.cn/
  11. 哔哩哔哩2025暑期实习&春招开启:https://jobs.bilibili.com/campus/
  12. 小米集团2025届春季校园招聘正式开启:http://hr.xiaomi.com/campus
  13. 平安人寿2025届春季校园招聘开启:https://campus.pingan.com/
  14. PayPal暑期实习招聘开启:https://careers.pypl.com/university-hiring/university-overview/
  15. 完美世界25届春招&26届实习开启:https://jobs.games.wanmei.com/school_qa.html
  16. 吉比特&雷霆游戏25年春招&暑期实习开启:https://hr.g-bits.com/web/index.html#/
  17. 西山居2025春季校招开启:Job.seasungames.cn/campus#/
  18. 歌尔2025年春招开启:https://www.goertek.com/join/advertises_s.html

AI绘画基础

【一】什么是人脸面部属性识别任务?

人脸面部属性识别是计算机视觉领域的一项技术,旨在通过分析人脸图像自动检测和分类与面部相关的多种属性特征,例如:

  • 生理属性:年龄、性别、种族;
  • 表情与情绪:微笑、愤怒、悲伤;
  • 装饰与状态:是否戴眼镜、口罩、帽子,是否有胡子;
  • 几何特征:面部朝向、眼睛开合程度、嘴巴张合程度。

核心原理
通过深度学习模型(如卷积神经网络)学习人脸图像中的局部与全局特征,将像素数据映射到高维语义空间,最终输出属性标签或数值预测。

通过面部属性识别,AI系统得以更“人性化”地理解用户需求,推动AIGC时代AI行业的持续创新。

通俗易懂的例子:智能美颜相机

场景
当用户使用美颜相机拍照时,相机自动分析面部属性:

  1. 性别:调整美颜参数(如女性可能增强柔肤,男性保留轮廓感);
  2. 年龄:年轻皮肤增强光泽,年长皮肤减少皱纹;
  3. 表情:检测微笑程度,自动触发拍照;
  4. 装饰:识别是否戴眼镜,避免美颜算法误处理镜片区域。

实现流程
摄像头捕获图像 → 人脸检测 → 属性识别 → 根据属性调整滤镜 → 输出美化后的照片。

各领域应用案例

1. AIGC(AI生成内容)

案例:虚拟人像生成

  • 应用:生成具有特定属性的虚拟人物,如设定“20岁亚洲女性,微笑,戴眼镜”。
  • 技术细节
    • 使用扩散模型或者生成对抗网络(GAN),结合属性标签控制生成结果。
    • 属性识别模型提供反馈,确保生成图像符合目标属性(如调整嘴部弧度以实现微笑)。
2. 传统深度学习

案例:多任务属性分类模型

  • 应用:训练单一模型同时预测年龄、性别、表情等属性。
  • 技术细节
    • 使用共享主干网络(如ResNet)提取特征,分支网络输出不同属性。
    • 损失函数组合:分类损失(性别) + 回归损失(年龄) + 注意力机制(聚焦关键区域)。
  • 代表研究:DeepFace(Facebook)。
3. 自动驾驶

案例:驾驶员状态监测系统(DMS)

  • 应用:实时监测驾驶员疲劳、分心等危险状态。
  • 技术细节
    • 面部属性识别:眼睛开合度(判断闭眼时长)、嘴巴张合(打哈欠)、头部姿态(是否低头看手机)。
    • 决策逻辑:若检测到持续闭眼2秒以上,触发警报声;频繁哈欠则建议休息。
  • 代表方案:特斯拉Autopilot的驾驶员监控、Mobileye的DMS技术。

【二】热门AI绘画插件UltimateSDUpscale的工作原理是什么样的?

UltimateSDUpscale 是一种基于 Stable Diffusion(SD)和GAN 框架的高效图像超分辨率技术,通过结合 GAN的超分辨率重建超分辨率图像切片切片图像图生图重绘后处理增强,实现从低分辨率(如 512×512)到高分辨率(如 2048×2048)的超分辨率重建和细节增强技术。

步骤 1:输入图像进行超分辨率重建

目标:将低分辨率图像进行超分辨率重建,获得高分辨率图像。
操作

  1. GAN模型:将输入图像(如 512×512)使用基于GAN架构的超分模型,获得高分辨率(如 2048×2048)的图像。

步骤 2:超分辨率图像切片

目标:将获得的高分辨率图像进行切片,获得切片图像(如 256×256)。
操作

  1. 设置切片图像的长宽进行切片:类似于传统深度学习时代的卷积操作,不断将高分辨率图像进行平滑的切片。

步骤 3:切片图像进行图生图重绘

目标:将切片图像输入SD模型中,进行图生成生图像的操作,从而增强切片图像的细节。
操作

  1. SD模型的图生图操作:将切片图像输入SD模型中进行图生图操作。

步骤 4:切片图像拼接融合与伪影抑制

目标:将切片图像重新拼接融合,并消除超分辨率过程中引入的伪影(如棋盘效应、噪声)。
操作

  1. Seams fix技术:沿着拼接缝隙,进行二次的生成修复。
  2. 频域滤波:对图像进行小波变换,抑制高频噪声(如色带效应),保留真实细节。

AI视频基础

【一】目前主流的AI视频大模型有哪些?

  1. Wan2.1
  2. Step-Video-T2V
  3. Hunyuan-Video
  4. Stable Video Diffusion(SVD)系列
  5. Sora
  6. 可灵AI
  7. LUMA
  8. Gen系列
  9. Stable Diffusion系列 + Animatediff系列

【二】介绍一下Hunyuan-Video的数据标注策略

在AI视频领域,数据标签的精确性和全面性在提高AI视频生成模型的提示遵循能力和输出质量方面起着至关重要的作用。以前的工作主要集中在提供简短的字幕或密集字幕。然而,这些方法因信息不完整、冗余话语和不准确而受到批评。

为了实现更高全面性、信息密度和准确性的字幕,Hunyuan-Video开发并应用了了一个内部的视觉语言模型(VLM),旨在为图像和视频生成结构化字幕。这些结构化字幕采用JSON格式,提供多维度的描述信息,从各个角度包括:

  1. 简短描述:捕捉场景的主要内容。
  2. 密集描述:详细描述场景内容,特别包括场景转换和摄像机运动,这些内容与视觉内容相结合,例如摄像机跟随某个主体。
  3. 背景:描述主体所处的环境。
  4. 风格:描述视频的风格,例如纪录片、电影、现实主义或科幻。
  5. 镜头类型:识别突出或强调特定视觉内容的视频镜头类型,例如航拍镜头、特写镜头、中镜头或长镜头。
  6. 照明:描述视频的照明条件。
  7. 氛围:传达视频的氛围,例如舒适、紧张或神秘。

同时Hunyuan-Video还训练了一个摄像机运动分类器,能够预测14种不同的摄像机运动类型,包括放大、缩小、向上摇摄、向下摇摄、左摇摄、右摇摄、向上倾斜、向下倾斜、向左倾斜、向右倾斜、向左旋转、向右旋转、静态镜头和手持镜头。

深度学习基础

【一】什么是Softplus激活函数?

一、数学定义与核心特点

Softplus函数定义为:

f ( x ) = ln ⁡ ( 1 + e x ) f(x) = \ln(1 + e^x) f(x)=ln(1+ex)

它是ReLU激活函数 f ( x ) = max ⁡ ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x) 的平滑近似版本,具有以下核心特性:

  1. 全局可导性:与ReLU在 x = 0 x=0 x=0 处不可导不同,Softplus在所有实数域连续可导。
  2. 单边抑制性:对负值输出趋近于0,对正值输出近似线性增长。
  3. 导数特性:其导数为Sigmoid函数,即 f ′ ( x ) = 1 1 + e − x f'(x) = \frac{1}{1 + e^{-x}} f(x)=1+ex1 ,梯度在 x = 0 x=0 x=0 处为0.5。

下面是Softplus激活函数的详细图示:

Softplus激活函数图示

二、实际案例:房价预测模型

场景:构建一个预测房屋价格的回归模型,要求输出价格必须为非负数。
传统方案:使用ReLU作为输出层激活函数,但可能导致梯度在 x = 0 x=0 x=0 处不连续,训练不稳定。
Softplus方案:将输出层替换为Softplus函数:

  • 优势:平滑输出确保梯度稳定传递,避免ReLU的"死亡神经元"问题。
  • 实现:最后一层代码示例(PyTorch):
    output = torch.nn.Sequential(
        torch.nn.Linear(128, 1),
        torch.nn.Softplus()  # 确保输出值>0
    )
    

AIGC、传统深度学习、自动驾驶三大领域应用解析

1. AIGC(生成式AI)领域

应用场景:变分自编码器(VAE)的隐变量建模

  • 问题:VAE需对潜在空间建模为正态分布,要求标准差参数 σ > 0 \sigma > 0 σ>0
  • 解决方案:使用Softplus约束网络输出:
    σ = Softplus ( w T x + b ) \sigma = \text{Softplus}(w^Tx + b) σ=Softplus(wTx+b)
  • 优势:相比强制使用指数函数( e x e^x ex 可能数值爆炸),Softplus更稳定且可导。

典型模型:Stable Diffusion的VAE模块中,潜在变量分布参数化。

2. 传统深度学习

应用场景:概率预测任务的中间层

  • 案例:多标签分类任务(如商品属性预测)中,标签间存在非互斥关系。
  • 实现:在最后一层用Softplus代替Sigmoid:
    # 多标签分类输出层
    torch.nn.Sequential(
        torch.nn.Linear(256, 20),
        torch.nn.Softplus()  # 输出值域(0, +∞),通过阈值判断标签存在性
    )
    
  • 优势:相比Sigmoid强制输出(0,1),Softplus允许超1值存在,更灵活处理高置信度样本。
3. 自动驾驶

应用场景:LiDAR点云障碍物距离回归

  • 需求:预测障碍物距离必须为正值,且需要平滑梯度以处理噪声数据。
  • 方案:在回归头使用Softplus:
    Distance = Softplus ( w T ⋅ LiDAR-features ) \text{Distance} = \text{Softplus}(w^T \cdot \text{LiDAR-features}) Distance=Softplus(wTLiDAR-features)
  • 对比实验:相比ReLU,Softplus在低反射率物体(如黑色车辆)的预测误差降低约12%。

典型系统:特斯拉HydraNet中的占用网络(Occupancy Network)模块。

性能对比与选型建议

激活函数计算成本梯度稳定性典型场景
ReLU最低 x ≤ 0 x \leq 0 x0 时梯度为0大规模图像分类
LeakyReLU避免神经元死亡生成对抗网络
Softplus较高全区间平滑梯度回归任务、概率建模

选型原则:优先ReLU系追求速度,选择Softplus需权衡计算开销与模型稳定性需求。

【二】分析一下卷积层的时间复杂度和空间复杂度

一、复杂度定义与计算公式

1. 时间复杂度(计算量)
时间复杂度衡量卷积层的计算资源消耗,通常用**浮点运算次数(FLOPs)**表示。
公式
FLOPs = 2 × K 2 × C in × C out × H out × W out \text{FLOPs} = 2 \times K^2 \times C_{\text{in}} \times C_{\text{out}} \times H_{\text{out}} \times W_{\text{out}} FLOPs=2×K2×Cin×Cout×Hout×Wout

其中:

  • K K K :卷积核尺寸(假设为正方形核)
  • C in C_{\text{in}} Cin :输入通道数
  • C out C_{\text{out}} Cout :输出通道数
  • H out , W out H_{\text{out}}, W_{\text{out}} Hout,Wout :输出特征图的高度和宽度
    :乘法和加法各计1次运算,因此系数为2。

2. 空间复杂度(参数量与内存占用)
空间复杂度包含两部分:

  • 参数量:模型存储的权重参数数量
    Params = K 2 × C in × C out \text{Params} = K^2 \times C_{\text{in}} \times C_{\text{out}} Params=K2×Cin×Cout

  • 激活内存:前向传播中特征图的存储需求
    Memory = C out × H out × W out × bytes-per-element \text{Memory} = C_{\text{out}} \times H_{\text{out}} \times W_{\text{out}} \times \text{bytes-per-element} Memory=Cout×Hout×Wout×bytes-per-element

    (通常每个元素为4字节的float32类型)

二、通俗案例解析

案例:手机端图像分类模型
假设输入为RGB图像(3×224×224),使用一个卷积层:

  • 卷积核:3×3,输出通道64,步长1,padding=1
  • 输出尺寸:64×224×224

复杂度计算

  • 时间复杂度
    2 × 3 2 × 3 × 64 × 224 × 224 = 1.73 × 1 0 9   FLOPs 2 \times 3^2 \times 3 \times 64 \times 224 \times 224 = 1.73 \times 10^9 \, \text{FLOPs} 2×32×3×64×224×224=1.73×109FLOPs

  • 参数量

    3 2 × 3 × 64 = 1 , 728   参数 3^2 \times 3 \times 64 = 1,728 \, \text{参数} 32×3×64=1,728参数

  • 激活内存

    64 × 224 × 224 × 4   Bytes = 12.58   MB 64 \times 224 \times 224 \times 4 \, \text{Bytes} = 12.58 \, \text{MB} 64×224×224×4Bytes=12.58MB

优化对比
若改用深度可分离卷积(Depthwise Separable Convolution):

  • 参数量降至 3 2 × 3 + 3 × 64 = 27 + 192 = 219 3^2 \times 3 + 3 \times 64 = 27 + 192 = 219 32×3+3×64=27+192=219
  • FLOPs降至 3 2 × 3 × 22 4 2 + 3 × 64 × 22 4 2 = 0.13 × 1 0 9   FLOPs 3^2 \times 3 \times 224^2 + 3 \times 64 \times 224^2 = 0.13 \times 10^9 \, \text{FLOPs} 32×3×2242+3×64×2242=0.13×109FLOPs
    计算量减少约13倍,适用于移动端部署。

机器学习基础

【一】混合专家模型(MoE)和集成学习有哪些异同?

混合专家模型(Mixture of Experts, MoE)和集成学习(Ensemble Learning)都是通过组合多个子模型提升整体性能的方法,但两者的设计思想、训练方式和应用场景存在显著差异。

一、核心异同分析

相同点
  1. 多模型协作:均通过多个子模型的协同工作提升性能。
  2. 降低过拟合风险:通过组合不同模型的预测结果,增强泛化能力。
  3. 分治思想:将复杂任务分解为多个子问题,由不同模型处理。
不同点
维度混合专家模型(MoE)集成学习
核心机制动态路由机制(门控网络分配权重)静态组合(投票、平均等)
训练方式联合训练(门控网络和专家共同优化)独立训练(基学习器独立后组合)
子模型关系专家差异化分工(不同专家处理不同输入)基学习器同质或异质,但无显式分工
计算效率稀疏激活(每次推理仅激活部分专家)全模型激活(所有基学习器参与预测)
应用场景输入相关的任务分治(如大语言模型)输出相关的预测融合(如分类、回归)

二、实际案例对比

案例背景:机器翻译任务
  • 集成学习
    使用多个独立的翻译模型(如Transformer、LSTM、BERT),每个模型对同一输入生成翻译结果,最终通过投票或加权平均选择最优结果。例如:5个模型对"apple"的翻译结果中,4个输出"苹果",1个输出"苹果公司",则最终结果为"苹果"。

  • 混合专家模型(MoE)
    设计多个专家(如语法专家、术语专家、上下文专家),门控网络根据输入句子动态分配权重。例如:输入"Apple is a fruit"时,语法专家权重0.6,术语专家权重0.4;输入"Apple released iPhone"时,术语专家权重0.8,上下文专家权重0.2。最终输出由加权后的专家结果融合生成。

三、领域应用场景

1. AIGC(生成式AI)
  • MoE应用
    GPT-4中采用稀疏MoE结构,不同专家处理不同语义场景(如代码生成、诗歌创作、逻辑推理)。例如生成代码时,门控网络激活编程语法专家;生成故事时激活叙事风格专家。
    优势:模型容量大但推理成本可控(仅激活部分参数)。

  • 集成学习应用
    多模型生成结果融合(如DALL·E 2生成图像时,结合CLIP排序和扩散模型生成结果)。
    优势:提升生成结果的多样性和稳定性。

2. 传统深度学习
  • MoE应用
    图像分类任务中,专家分工处理不同物体类别(如动物、交通工具),门控网络根据图像内容动态选择专家。
    案例:Google的Vision MoE模型在ImageNet上实现更高精度。

  • 集成学习应用
    随机森林通过多棵决策树的投票结果提升分类鲁棒性;Stacking在Kaggle竞赛中广泛用于融合CNN、ResNet等模型的预测结果。

3. 自动驾驶
  • MoE应用
    不同专家处理不同驾驶场景(如高速巡航、城市拥堵、紧急避障),门控网络根据传感器输入(激光雷达、摄像头)动态切换专家。
    案例:特斯拉的HydraNet架构使用类似思想处理多任务学习。

  • 集成学习应用
    融合激光雷达、摄像头、毫米波雷达的感知结果(如目标检测中结合YOLO和PointPillars模型的输出)。
    优势:提升系统在恶劣天气或传感器故障时的鲁棒性。

四、总结

  • 选择MoE:任务需要动态分治(输入差异大)、模型容量要求高且需控制计算成本时(如AIGC)。
  • 选择集成学习:需提升模型稳定性、结果多样性或处理不确定性时(如自动驾驶多传感器融合)。
  • 两者的结合(如MoE+集成学习)也是前沿方向:例如在MoE的门控网络中引入集成决策机制,进一步提升复杂任务的处理能力。

【二】稀疏模型和稠密模型有哪些异同?

一、核心异同分析

相同点
  1. 目标一致:均旨在通过参数学习解决复杂任务(如分类、生成、预测)。
  2. 依赖数据驱动:需通过大量数据训练优化模型参数。
  3. 可扩展性:均可通过增加参数量提升模型能力(但实现方式不同)。
不同点
维度稀疏模型稠密模型
参数激活方式部分参数激活(如MoE中按输入激活部分专家)全参数激活(所有参数参与计算)
计算效率高(仅计算必要部分,适合大规模模型)低(计算全部参数,资源消耗大)
模型容量容量大但计算成本可控(参数总量大,激活量小)容量与计算成本正相关(参数量=计算量)
训练难度需设计动态路由机制,训练复杂度高端到端训练,技术成熟度高
典型应用大规模AIGC生成模型、AI多模态任务场景传统深度学习场景中的分类、分割、检测以及小规模回归任务

二、通俗案例:图书馆检索系统

  • 稠密模型
    类比于传统图书馆,用户每次借书时,管理员必须检查每一本书是否匹配需求。
    问题:效率低,耗时久(对应稠密模型的高计算成本)。

  • 稀疏模型
    图书馆引入智能分类系统,用户输入关键词(如“WeThinkIn”),系统仅扫描相关区域的书架。
    优势:快速定位目标,节省资源(对应稀疏模型的动态激活机制)。

三、领域应用场景

1. AIGC(生成式AI)
  • 稀疏模型

    • 案例:Google的Switch Transformer(MoE架构),通过稀疏激活将万亿参数模型的推理成本降至可行范围。
    • 场景:生成任务中动态选择专家(如文本生成时激活“叙事专家”,代码生成时激活“语法专家”)。
    • 优势:支持超大规模模型(如GPT-4)的高效部署。
  • 稠密模型

    • 案例:Stable Diffusion的基础UNet网络,全参数参与图像生成计算。
    • 场景:单任务生成(如固定风格的图像生成),依赖端到端训练简化流程。
    • 局限:模型规模受限,难以直接扩展到万亿参数。
2. 传统深度学习
  • 稀疏模型

    • 推荐系统:处理高维稀疏特征(如用户ID、商品ID),仅激活用户历史行为相关的特征子网络。
    • 案例:YouTube的推荐模型使用稀疏注意力机制,降低长序列处理的计算量。
  • 稠密模型

    • 图像分类:ResNet、VGG等经典模型,全连接层和卷积层参数全部激活。
    • 优势:结构简单,适合中小规模数据(如CIFAR-10分类)。
3. 自动驾驶
  • 稀疏模型

    • 实时感知:激光雷达点云处理中,仅激活与当前障碍物相关的3D检测分支。
    • 案例:Waymo的LATTE模型,稀疏激活不同传感器融合路径以降低延迟。
    • 优势:满足实时性要求(如100ms内决策)。
  • 稠密模型

    • 端到端驾驶:输入图像直接映射到控制信号(如方向盘角度),全参数参与计算。
    • 案例:NVIDIA的PilotNet,依赖稠密CNN处理摄像头输入。
    • 局限:难以扩展复杂多任务(如同时处理检测、预测、规划)。

四、总结:如何选择模型?

场景需求推荐模型原因
超大规模参数+有限算力稀疏模型通过稀疏激活降低计算成本
简单任务+高训练稳定性需求稠密模型端到端训练成熟可靠
多任务/动态输入(如AIGC)稀疏模型专家分工适配不同子任务
低延迟实时系统(如自动驾驶)稀疏模型仅计算必要部分,提升响应速度
中小规模数据+快速迭代稠密模型避免稀疏模型复杂的路由机制设计

五、前沿趋势:稀疏与稠密结合

  • 技术方向
    1. 稠密模型稀疏化:通过剪枝、量化将稠密模型转化为稀疏结构(如TensorRT的稀疏推理优化)。
    2. 稀疏模型稠密化:在训练阶段使用稠密参数,推理时动态稀疏化(如Google的Pathways系统)。
  • 应用价值
    兼顾模型容量与推理效率,适用于AIGC、传统深度学习以及自动驾驶的高性能需求场景。

Python编程基础

【一】Python中使用async-def定义函数有什么作用?

一、async def 的作用

async def 是 Python 中定义异步函数的关键字,用于声明一个协程(coroutine)。它的核心作用是:

  • 非阻塞并发:允许在等待 I/O 操作(如网络请求、文件读写)时释放 CPU,让其他任务运行。
  • 提升效率:适合高延迟、低计算的场景(如 Web 服务器处理请求),通过事件循环(Event Loop)管理多个任务的切换。

与同步函数的区别:

  • 同步函数遇到 I/O 时会“卡住”整个线程,直到操作完成。
  • 异步函数遇到 await 时会暂停,让事件循环执行其他任务,直到 I/O 完成再恢复。

通过合理使用 async def,可以在不增加硬件成本的情况下显著提升AI系统吞吐量和响应速度。

二、生动例子:餐厅服务员点餐

假设一个餐厅有 1 个服务员3 个顾客

  • 同步场景:服务员依次为每个顾客点餐,必须等当前顾客完全点完才能服务下一个。
  • 异步场景:服务员在顾客看菜单时(等待时间)去服务其他顾客,最终总时间更短。

代码实现

import asyncio

async def order_customer(name):
    print(f"顾客 {name} 开始看菜单...")
    await asyncio.sleep(2)  # 模拟看菜单的等待时间
    print(f"顾客 {name} 点餐完成!")

async def main():
    await asyncio.gather(
        order_customer("Alice"),
        order_customer("Bob"),
        order_customer("Charlie"),
    )

asyncio.run(main())

输出

顾客 Alice 开始看菜单...
顾客 Bob 开始看菜单...
顾客 Charlie 开始看菜单...
(等待2秒)
顾客 Alice 点餐完成!
顾客 Bob 点餐完成!
顾客 Charlie 点餐完成!

三、在 AIGC 中的应用

场景:同时处理多个用户的文本生成请求。
案例:使用异步框架(如 FastAPI)处理 GPT 请求,当一个请求等待模型生成时,处理另一个请求。

from fastapi import FastAPI
import asyncio

app = FastAPI()

async def generate_text(prompt):
    # 模拟调用大模型生成文本(假设有延迟)
    await asyncio.sleep(1)
    return f"Generated text for: {prompt}"

@app.post("/generate")
async def handle_request(prompt: str):
    result = await generate_text(prompt)
    return {"result": result}

# 启动服务后,多个用户请求可以并发处理

四、在传统深度学习中的应用

场景:异步加载和预处理数据,减少训练时的等待时间。
案例:使用 aiofiles 异步读取文件,同时用多进程进行数据增强。

import aiofiles
import asyncio

async def async_load_data(file_path):
    async with aiofiles.open(file_path, 'r') as f:
        data = await f.read()
    # 异步预处理(如解码图像)
    return preprocess(data)

async def data_pipeline(file_paths):
    tasks = [async_load_data(path) for path in file_paths]
    return await asyncio.gather(*tasks)

# 在训练循环外异步预加载下一批数据

五、在自动驾驶中的应用

场景:实时处理多传感器(摄像头、雷达、LiDAR)的输入数据。
案例:异步接收传感器数据并并行处理。

async def process_camera(frame):
    await asyncio.sleep(0.1)  # 模拟图像处理耗时
    return detect_objects(frame)

async def process_lidar(point_cloud):
    await asyncio.sleep(0.05)  # 模拟点云处理耗时
    return cluster_points(point_cloud)

async def main_loop():
    while True:
        camera_data = get_camera_frame()
        lidar_data = get_lidar_points()
        # 并行处理传感器数据
        objects, clusters = await asyncio.gather(
            process_camera(camera_data),
            process_lidar(lidar_data)
        )
        make_decision(objects, clusters)

【二】在基于Python的AI服务中,如何规范API请求和数据交互的格式?

一、规范API交互的核心方法

1. 使用 FastAPI + pydantic 框架
  • FastAPI:现代高性能Web框架,自动生成API文档(Swagger/Redoc)
  • pydantic:通过类型注解定义数据模型,实现自动验证和序列化

pydantic 库的 BaseModel 能够定义一个数据验证和序列化模型,用于规范 API 请求或数据交互的格式。通过 pydantic.BaseModel,AI开发者可以像设计数据库表结构一样严谨地定义数据交互协议,尤其适合需要高可靠性的工业级AI服务应用场景。

2. 定义三层结构
# 请求模型:规范客户端输入
class RequestModel(BaseModel): ...

# 响应模型:统一返回格式
class ResponseModel(BaseModel): ...

# 错误模型:标准化错误信息
class ErrorModel(BaseModel): ...

二、通俗示例:麻辣香锅订购系统

假设我们开发一个AI麻辣香锅订购服务,规范API交互流程:

1. 定义数据模型
from pydantic import BaseModel

class FoodOrder(BaseModel):
    order_id: int          # 必填字段
    dish_name: str = "麻辣香锅"  # 默认值
    spicy_level: int = 1   # 辣度默认1级
    notes: str = None      # 可选备注

# 用户提交的 JSON 数据会自动验证:
order_data = {
    "order_id": 123,
    "spicy_level": 3
}
order = FoodOrder(**order_data)  # dish_name 自动填充为默认值
print(order.dict())  
# 输出:{'order_id': 123, 'dish_name': '麻辣香锅', 'spicy_level': 3, 'notes': None}

三、在 AIGC 中的应用

场景:规范图像生成 API 的请求参数
案例:Stable Diffusion 服务接收生成请求时,验证参数合法性:

from fastapi import FastAPI
from pydantic import BaseModel

app = FastAPI()

class ImageGenRequest(BaseModel):
    prompt: str                   # 必填提示词
    steps: int = 20               # 默认生成步数
    callback_url: str = None      # 生成完成后回调地址

@app.post("/generate")
async def generate_image(request: ImageGenRequest):
    # 参数已自动验证合法
    image = call_sd_model(request.prompt, request.steps)
    if request.callback_url:
        send_to_callback(image, request.callback_url)
    return {"status": "success"}

四、在传统深度学习中的应用

场景:训练任务配置管理
案例:定义训练参数模板,避免配置文件错误:

class TrainingConfig(BaseModel):
    dataset_path: str             # 必填数据集路径
    batch_size: int = 32          # 默认批次大小
    learning_rate: float = 1e-4   # 默认学习率
    use_augmentation: bool = True # 是否启用数据增强

# 从 YAML 文件加载配置并自动验证
config_data = load_yaml("config.yaml")
config = TrainingConfig(**config_data)
train_model(config.dataset_path, config.batch_size)

五、在自动驾驶中的应用

场景:传感器数据接收协议
案例:验证来自不同传感器的数据格式:

class SensorConfig(BaseModel):
    sensor_type: str              # 传感器类型(LiDAR/Camera)
    ip_address: str               # 传感器IP地址
    frequency: float = 10.0       # 默认采样频率(Hz)
    calibration_file: str = None  # 可选标定文件路径

# 接收传感器注册请求
sensor_data = {
    "sensor_type": "LiDAR",
    "ip_address": "192.168.1.100"
}
config = SensorConfig(**sensor_data)  # 自动填充默认频率
connect_sensor(config.ip_address, config.frequency)

六、API规范化带来的收益

维度传统方式问题规范化方案优势
开发效率需要手动编写验证逻辑声明式定义,减少重复代码
错误排查调试困难,错误信息不明确自动返回具体字段验证失败原因
协作成本前后端需要口头约定格式Swagger文档自动同步
安全性可能接收非法参数导致崩溃输入过滤防止注入攻击
扩展性添加新字段需要多处修改只需修改模型类定义

模型部署基础

【一】Ollama、vLLM、LMDeploy、TensorRT-LLM、SGLang之间有什么区别?

在AIGC时代中,对大模型进行部署是不可缺少的一环,在DeepSeek系列火爆全球后,我们需要掌握Ollama、vLLM、LMDeploy、TensorRT-LLM、SGLang五个主流大模型部署工具的异同。

我们只有了解不同部署工具在易用性、性能和适用场景上的差异化优势,才能结合实际需求中的响应速度、硬件资源和部署复杂度进行权衡选择。

一、核心特性对比

工具名称核心定位优势局限性典型适用场景
Ollama轻量级LLM本地部署框架安装简单、跨平台支持、内存占用低、支持多模态模型并发能力弱、国内下载速度慢个人开发、本地测试、原型验证
vLLM高性能LLM推理引擎高吞吐量、支持多GPU并行、内存优化(PagedAttention)配置复杂、显存占用高企业级高并发服务、在线问答平台
LMDeploy端到端LLM服务优化工具链支持模型压缩(KV Cache量化)、长上下文优化、多框架兼容生态相对较小、文档资源有限移动端部署、边缘计算场景
TensorRT-LLMNVIDIA GPU专用推理加速框架极致低延迟(TTFT优化)、支持混合精度、与TensorRT深度集成模型转换复杂、依赖NVIDIA生态自动驾驶实时决策、金融高频交易
SGLang流式交互优化框架支持复杂逻辑链式调用、异步流式响应、自定义语法扩展学习成本较高、社区活跃度较低AIGC多轮对话、游戏NPC交互系统

二、实际案例解析

1. Ollama案例:个人开发者本地调试
  • 场景:开发者需要在笔记本电脑上快速测试DeepSeek-R1模型的代码生成能力。
  • 操作:通过ollama run DeepSeek-R1一键启动模型,结合Zed AI编辑器实现代码补全。
  • 优势:5分钟内完成环境搭建,内存占用仅4GB,支持离线运行保障代码隐私。
2. vLLM案例:电商大促智能客服
  • 场景:双十一期间需处理每秒上千次的用户咨询。
  • 配置:使用4台A100 GPU部署vLLM集群,通过vllm --tensor-parallel-size 4启动分布式推理。
  • 效果:吞吐量提升3倍,响应延迟稳定在200ms内,支撑日均千万级查询。
3. TensorRT-LLM案例:自动驾驶路径规划
  • 场景:车辆需在10ms内完成障碍物轨迹预测。
  • 优化:将LSTM模型转换为TensorRT-LLM引擎,启用FP16精度和动态批处理。
  • 结果:首包延迟(TTFT)降低至5ms,较原始PyTorch实现提速8倍。

三、领域应用分析

AIGC领域
  • Ollama:本地运行Stable Diffusion文本生成图像流水线,避免云服务API调用成本。
  • vLLM:支撑AI直播带货脚本批量生成,单GPU可并行处理50个主播的个性化文案需求。
  • SGLang:构建多模态创作工作流(如「文本→分镜→配乐」链式生成),通过语法规则控制创作逻辑。
传统深度学习
  • LMDeploy:将70B参数的模型量化至4-bit后部署至手机端,实现离线翻译APP。
  • TensorRT-LLM:在医疗影像分析中,将ResNet-50推理速度提升至每秒3000帧,满足实时诊断需求。
自动驾驶
  • vLLM:用于车载语音助手,支持20路并发语音指令解析(如「导航到最近的充电站并播放新闻」)。
  • TensorRT-LLM:在百度Apollo系统中实现毫秒级车道线预测,较传统MPC控制器响应速度提升5倍。

四、选型建议

考量维度推荐工具理由
快速原型开发Ollama无需复杂配置,支持即时模型切换与本地调试
高并发生产环境vLLMPagedAttention技术显著降低显存碎片,支撑千级QPS
边缘设备部署LMDeploy + TensorRT-LLM量化与硬件加速结合,实现大模型在Jetson设备上的实时运行
复杂交互逻辑SGLang支持状态保持与条件分支,适合多轮对话和流程控制场景

【二】介绍一下Hopper架构GPU的概念

Hopper架构是NVIDIA推出的新一代GPU架构,专为AI和高性能计算(HPC)设计,以高效处理大规模并行计算任务为核心目标。其核心技术包括Transformer引擎、第四代NVLink、高密度计算单元等,显著提升了AI模型的训练和推理效率。

核心技术创新

  1. Transformer引擎

    • 功能:通过混合FP8和FP16精度动态调整计算模式,加速Transformer类模型(如DeepSeek、GPT、BERT)的训练和推理。
    • 优势:相比前代架构,AI训练速度提升3倍以上,显存占用降低30%。
  2. 第四代NVLink

    • 功能:支持多GPU间高速互联,双向带宽达900GB/s,是PCIe 5.0的7倍。
    • 应用场景:多卡集群训练时减少通信瓶颈,适用于千亿参数大模型的分布式训练。
  3. 高密度计算单元

    • 制程与规模:采用台积电4N工艺,集成超过800亿晶体管,计算密度提升50%。

通俗案例解析

案例:大语言模型推理加速
假设需部署一个千亿参数的GPT模型进行实时对话服务:

  • 传统架构:受限于显存带宽和计算单元效率,推理延迟可能高达数百毫秒。
  • Hopper架构:通过Transformer引擎的FP8精度优化和KV缓存压缩,显存带宽利用率提升至3000GB/s(如H800 GPU),推理延迟降至几十毫秒,同时支持更高并发请求。

领域应用场景

1. AIGC(生成式AI)
  • 核心需求:高吞吐量、低延迟的文本/图像生成。
  • Hopper应用
    • 文本生成:基于Transformer引擎优化注意力机制,支持Stable Diffusion、DeepSeek、GPT-4等模型快速生成高质量内容。
    • 图像生成:利用FP8精度加速扩散模型(如DALL·E 3),单卡可同时处理多批次高分辨率图像生成任务。
2. 传统深度学习
  • 核心需求:大规模数据训练与高效参数更新。
  • Hopper应用
    • 分布式训练:通过NVLink构建多机多卡集群,千卡级训练任务通信效率提升9倍,训练时间缩短60%(如YOLOv5、ResNet-152训练)。
    • 混合精度优化:FP8精度下,BERT等模型的微调能耗降低40%。
3. 自动驾驶
  • 核心需求:实时处理多模态传感器数据(LiDAR、摄像头)。
  • Hopper应用
    • 多任务并行:利用MIG(多实例GPU)技术将单卡分割为多个独立实例,同时处理目标检测、路径规划、语义分割任务。
    • 低延迟推理:基于高带宽显存(HBM3),处理单帧LiDAR点云(32x32x32体素)的推理延迟<10ms,满足实时决策需求。

性能对比与优势总结

指标Hopper(H800)前代架构(A100)优势提升
显存带宽3000 GB/s2039 GB/s+47%
FP8算力峰值580 TFLOPS312 TFLOPS+86%
多卡互联带宽900 GB/s600 GB/s+50%
能耗比(TOPS/W)3.52.1+66%

Hopper架构通过硬件-软件协同优化,正在重塑AI基础设施的效能边界,成为AIGC、传统深度学习、自动驾驶等领域的核心算力引擎。

计算机基础

Rocky从工业界、学术界、竞赛界以及应用界角度出发,总结归纳AI行业所需的计算机基础干货知识。这些干货知识不仅能在面试中帮助我们,还能让我们在AI行业中提高工作效率

【一】介绍一下Linux中修改文件权限的命令

一、Linux 文件权限修改命令详解

1. 核心命令
  • chmod(修改权限)

    • 符号模式u/g/o/a(用户/组/其他/全部) + +/-/=(添加/移除/设置) + r/w/x(读/写/执行)
      示例:chmod u+x script.sh(赋予所有者执行权限)
    • 数字模式:三位八进制数(如 755),分别代表 所有者、组、其他用户 的权限组合(r=4, w=2, x=1)。
      示例:chmod 755 model.pth → 所有者 rwx,组和其他用户 r-x
  • chown(修改所有者/组)
    示例:chown alice:ai_team model.log(将文件所有者和组改为 aliceai_team)。

  • chgrp(仅修改组)
    示例:chgrp researchers data/(将目录所属组设为 researchers)。

2. 实际案例:团队协作中的权限管理

场景
某 AI 团队需要共享训练脚本和数据集,但需确保:

  • 脚本(如 train.py):仅所有者可修改,其他成员可读可执行。
  • 数据集(如 dataset/):组成员可读写,其他用户无权限。
  • 日志(如 logs/):所有成员可读,但仅运维组可删除。

操作

# 1. 脚本权限:rwxr-xr-x(所有者可执行,其他用户只读和执行)
chmod 755 train.py

# 2. 数据集目录:组可读写,其他用户无权限(rwxrwx---)
chmod 770 dataset/
chgrp ai_team dataset/

# 3. 日志目录:组成员可读写,其他用户只读,并设置 Sticky Bit(仅所有者可删除文件)
chmod 1774 logs/

二、在 AI 领域中的实际应用

1. AIGC(生成式 AI)场景
  • 应用背景
    多团队协作开发扩散模型(如 Stable Diffusion),需隔离不同角色的权限:

    • 算法工程师:可修改模型训练脚本(chmod 750 train.py)。
    • 数据工程师:仅能读写训练数据目录(chgrp data_team /data/images)。
    • 运维人员:管理推理服务日志(chmod 640 inference.log)。
  • 意义
    防止误删或篡改关键模型文件,保障生成结果的一致性(如保护预训练权重文件权限为 600)。

2. 传统深度学习场景
  • 应用背景
    分布式训练集群中,权限管理用于:

    • 训练脚本:确保仅调度节点可执行(chmod +x distributed_train.sh)。
    • 共享存储:组内成员可读写中间结果(chmod 775 /shared_results)。
    • 敏感数据:限制非授权用户访问标注数据(chmod 600 labels.txt)。
  • 意义
    避免训练任务因权限冲突中断(如权限错误导致数据加载失败),同时保护标注数据隐私。

3. 自动驾驶场景
  • 应用背景
    车端-云端协同系统中,权限控制用于:

    • 传感器数据:仅车载系统用户可读写(chown caros:caros /sensor_data)。
    • 实时日志:设置 Sticky Bit 防止日志被非特权进程删除(chmod +t /var/log/autodrive)。
    • OTA 更新包:仅校验通过后赋予执行权限(chmod 744 update.bin)。
  • 意义
    确保行车关键数据的安全性(如防止恶意篡改高精地图权限),同时满足车规级系统的实时性要求。

三、面试回答技巧

  1. 强调系统思维
    “权限管理是 AI 工程化的基础设施,直接影响团队协作效率和系统安全性。例如在自动驾驶中,权限错误可能导致传感器数据泄漏或 OTA 升级失败。”

  2. 结合调试经验
    “我曾遇到因 Permission Denied 导致训练任务卡死的问题,最终通过 chmod 修复数据集目录权限,并添加 set -e 和错误日志监控。”

  3. 延伸扩展

    • 特殊权限:如 SUID 用于部署工具链(如 Docker 容器内的权限继承)。
    • ACL 高级控制:复杂场景下使用 setfacl 精细化授权。
    • 安全合规:符合 GDPR/ISO 27001 的数据访问权限设计。

通过将 Linux 权限命令与 AI 行业场景结合,既能展示技术深度,又能体现工程化思维,这正是算法岗面试中脱颖而出的关键!

【二】两台服务器之间如何进行内网传输数据?

一、SFTP 内网数据传输

SFTP(SSH File Transfer Protocol)是基于 SSH 的安全文件传输协议,适用于加密传输敏感数据。以下是具体操作流程:

1. 配置 SSH 服务
1. SFTP 传输文件
  • 连接服务端

    sftp -P 22 user@server_ip       # 默认端口可省略 -P
    
  • 常用命令

    put /local/file.txt /remote/    # 上传文件
    get /remote/file.txt /local/    # 下载文件
    mkdir /remote/data              # 创建远程目录
    ls -l                           # 列出远程文件
    exit                            # 退出
    
  • 递归传输目录
    使用 scp(基于 SSH 的简化命令):

    scp -r /local/dir user@server_ip:/remote/dir  # 递归传输目录
    scp -C file.zip user@server_ip:/remote/       # -C 启用压缩
    
2. 安全性增强
  • 限制 IP 访问
    在服务端 /etc/ssh/sshd_config 中配置:
    AllowUsers user@192.168.1.0/24  # 仅允许内网 IP 段访问
    
  • 禁用密码登录
    修改 sshd_config 后重启服务:
    PasswordAuthentication no       # 仅允许密钥认证
    sudo systemctl restart sshd
    

二、实际案例:分布式训练中的安全数据同步

场景
在训练多模态大模型(如 GPT-4)时,需将服务器 A 的预处理数据集(含敏感文本)安全传输至服务器 B 的 GPU 集群。
操作

  1. 配置免密登录

    # 在服务器 B(客户端)生成密钥并上传至服务器 A(服务端)
    ssh-keygen -t rsa
    ssh-copy-id -i ~/.ssh/id_rsa.pub data_engineer@192.168.1.1
    
  2. 压缩并传输数据

    # 从服务器 B 拉取数据(服务端 IP: 192.168.1.1)
    scp -C -r data_engineer@192.168.1.1:/datasets/multimodal /local_training/
    
  3. 验证完整性

    # 生成校验和并比对
    sha256sum /datasets/multimodal/*.tar > checksum.txt
    scp data_engineer@192.168.1.1:/datasets/multimodal/checksum.txt .
    sha256sum -c checksum.txt      # 检查文件是否完整
    

三、在 AI 领域中的实际应用

1. AIGC(生成式 AI)场景
  • 应用背景
    训练 Diffusion 模型时,需在多台服务器间传输:

    • 版权素材库:使用 SFTP 加密传输受版权保护的训练图片/视频,避免明文泄露。
    • 模型权重同步:将微调后的模型安全分发至推理服务器(如 scp model.ckpt user@inference_server:/models)。
  • 意义
    符合数据隐私法规(如 GDPR),防止生成内容被恶意篡改。

2. 传统深度学习场景
  • 应用背景
    跨团队协作中的敏感数据处理:

    • 医疗数据共享:医院内网中通过 SFTP 传输脱敏的 CT 扫描数据至训练服务器。
    • 联邦学习参数同步:各参与方通过 SFTP 加密上传本地模型梯度至聚合服务器。
  • 意义
    满足 HIPAA 等医疗数据合规要求,保障隐私。

3. 自动驾驶场景
  • 应用背景
    车端与云端的数据交互:

    • 传感器日志回传:通过 SFTP 将车载摄像头/雷达的原始数据加密上传至云端分析平台。
    • 高精地图更新:增量下载加密的地图差分文件至车载计算单元(如 sftp get /maps/update.bin)。
  • 意义
    防止 CAN 总线数据被中间人攻击,满足 ISO 21434 汽车网络安全标准。

四、面试回答技巧

  1. 结合项目经验
    “在上一份工作中,我们通过 SFTP + 密钥认证,每日将 10TB 的自动驾驶路测数据从边缘服务器同步至云端,传输错误率降至 0.01%。”

  2. 延伸技术栈

    • 跳板机架构:通过 Bastion Host 中转访问生产环境服务器,增强安全性。
    • 证书双向认证:使用 OpenSSL 签发客户端/服务端证书,实现双向验证。
  3. 行业趋势
    “在 AIGC 领域,未来可能结合加密信道与 SFTP,应对针对AIGC大模型的窃取攻击。”

通过将 SFTP 的技术细节与 AI 行业场景结合,既能体现工程能力,又能展现对数据安全和业务需求的理解,这正是算法工程师的能学到的核心知识!

开放性问题

Rocky从工业界、学术界、竞赛界以及应用界角度出发,总结AI行业的本质思考。这些问题不仅能够用于面试官的提问,也可以用作面试者的提问,在面试的最后阶段让面试双方进入深度的探讨与交流。

与此同时,这些开放性问题也是贯穿我们职业生涯的本质问题,需要我们持续的思考感悟。这些问题没有标准答案,Rocky相信大家心中都有自己对于AI行业的认知与判断,欢迎大家在留言区分享与评论。

【一】AI算法工程师如何将工作中的实践价值最大化?

Rocky认为这是AI算法工程师职业生涯中非常关键的一点,将实践价值举一反三,并挖掘出长期沉淀性,是大家毕生的思考点。

【二】如何给一个完全没有接触过传统深度学习的人介绍传统深度学习?

Rocky认为这是一个非常有价值的问题,因为现在AI行业已经进入AIGC时代,同时AIGC又是一个破圈式繁荣的时代,为了更好的在AIGC时代前行,我们需要了解AI行业的发展脉络,就需要深刻了解传统深度学习时代。

推荐阅读

1、加入AIGCmagic社区知识星球!

AIGCmagic社区知识星球不同于市面上其他的AI知识星球,AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人以及全行业AIGC赋能等100+应用方向。星球内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等干货

那该如何加入星球呢?很简单,我们只需要扫下方的二维码即可。与此同时,我们也重磅推出了知识星球2025年惊喜价:原价199元,前200名限量立减50!特惠价仅149元!(每天仅4毛钱)

时长:一年(从我们加入的时刻算起)

2、AIGC时代Rocky撰写的干货技术文章汇总分享!

  1. Sora等AI视频大模型等全维度解析文章:https://zhuanlan.zhihu.com/p/706722494
  2. Stable Diffusion 3和FLUX.1的10万字全维度解析文章:https://zhuanlan.zhihu.com/p/684068402
  3. Stable Diffusion XL的10万字全维度解析文章:https://zhuanlan.zhihu.com/p/643420260
  4. Stable Diffusion 1.x-2.x的10万字全维度解析文章:https://zhuanlan.zhihu.com/p/632809634
  5. ControlNet系列的全维度解析文章:https://zhuanlan.zhihu.com/p/660924126
  6. LoRA系列模型的全维度解析文章:https://zhuanlan.zhihu.com/p/639229126
  7. Transformer全维度解析文章:https://zhuanlan.zhihu.com/p/709874399
  8. 最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2025年版)》文章:https://zhuanlan.zhihu.com/p/651076114
  9. 50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章:https://zhuanlan.zhihu.com/p/545374303
  10. Stable Diffusion WebUI、ComfyUI等AI绘画框架的全维度解析文章:https://zhuanlan.zhihu.com/p/673439761
  11. GAN系列模型的全维度解析文章:https://zhuanlan.zhihu.com/p/663157306

3、其他

Rocky将YOLOv1-v7全系列大解析文章也制作成相应的pdf版本,大家可以关注公众号WeThinkIn,并在后台 【精华干货】菜单或者回复关键词“YOLO” 进行取用。

Rocky一直在运营技术交流群(WeThinkIn-技术交流群),这个群的初心主要聚焦于技术话题的讨论与学习,包括但不限于算法,开发,竞赛,科研以及工作求职等。群里有很多人工智能行业的大牛,欢迎大家入群一起学习交流~(请添加小助手微信Jarvis8866,拉你进群~)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Rocky Ding*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值