AI大模型算法实习需要如何准备面试?有哪些方面经常提问?

前言

大模型算法方向的实习最大的问题恐怕是歧视问题。投过几个单位下来感觉,一是学历歧视,二是学术歧视。学历歧视算严重,清北>华五>c9>中9,末9和211双一流就是臭底边,拿不出好论文别想进门。

学术歧视更严重,没有顶会论文等于没有产出,再多实践经验都给你打五折。投过一家比较有意思的单位,卡不到三百张,钱不超四百块,人员学历质量对标智谱,科研产出质量对标月暗,投递简历不用看都知道不符合方向,在大模型赛道没扑棱出几个水花,估计过段时间又得回去做老本行,我不说算力,哪怕你薪资对标一下幻方,这口气我也咽下去了。

而且光研究理论没用,一定多实践,不然碰到不想培养你的,一问没有实践经历不要,好哥哥,全国有几个课题组跑得起预训练?

言归正传,下面列一些我被问过的,和我感觉如果我是hr我一定会问的问题:

  1. 注意力的计算公式
  2. 几种位置编码,几种norm,几种ffn
  3. 为什么自回归是最主流的预训练方法,除此之外还有什么其他的预训练方法
  4. 常见的微调方法,以及常见的下游任务
  5. attention结构的几种变体
  6. fashattention的大致原理
  7. 提升长文本性能的几种可行做法
  8. 如何在预训练阶段提升模型的性能
  9. 知识蒸馏
  10. 量化
  11. 混合精度训练
  12. 分布式训练dp,mp,ddp,pp;zero的三个stage
  13. 多模态clip
  14. 多模态的实现方式(双流、单流)

答案解析

  1. 注意力的计算公式

注意力机制的核心在于计算查询(Query)、键(Key)和值(Value)之间的相似度。最常见的注意力计算公式是缩放点积注意力(Scaled
Dot-Product Attention),其公式如下: \text{Attention}(Q, K, V) =
\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V 其中 ( Q ) 是查询矩阵,(
K ) 是键矩阵,( V ) 是值矩阵,( d_k ) 是键向量的维度。

  1. 几种位置编码,几种norm,几种ffn
  • 位置编码:常见的位置编码方法包括绝对位置编码(Absolute Positional Encoding)和相对位置编码(Relative Positional Encoding)
  • Norm:常用的归一化方法有层归一化(Layer Normalization)、批量归一化(Batch Normalization)和实例归一化(Instance Normalization)
  • FFN:前馈神经网络(Feed-Forward Network)在Transformer架构中通常包含两个线性层和一个激活函数,例如ReLU或GELU
  1. 为什么自回归是最主流的预训练方法,除此之外还有什么其他的预训练方法?

回归(Autoregressive)方法,如GPT系列模型,之所以流行是因为它能够很好地捕捉序列中的前后依赖关系。此外,还有掩码语言建模(Masked
Language Modeling, MLM),如BERT,它通过掩码部分输入并预测缺失部分来训练模型。

  1. 常见的微调方法,以及常见的下游任务

常见的微调方法包括:

  • 任务特定的微调:针对特定任务(如文本分类、问答等)进行微调。
  • 多任务微调:同时在多个相关任务上进行微调,以共享信息。 常见的下游任务包括:
  • 文本分类:情感分析、垃圾邮件过滤等。
  • 问答系统:生成答案以响应问题。
  • 命名实体识别:从文本中识别特定类型的实体。
  1. Attention结构的几种变体

除了标准的Self-Attention,还有:

  • Multi-Head Attention:通过分割查询、键和值,使用多个头进行并行计算。
  • Global Attention:全局注意力机制,考虑所有输入位置。
  • Local Attention:局部注意力机制,只考虑输入的局部区域。
  1. Fast Attention的大致原理

Fast Attention技术旨在加速注意力计算过程,通过使用近似方法减少计算量。例如,使用随机投影(Random
Projection)或其他降维技术来近似注意力矩阵。

  1. 提升长文本性能的几种可行做法

提升长文本性能的方法包括:

  • 滑动窗口:将长文本划分为多个较短的段落进行处理。
  • 层次注意力:使用层次结构的注意力机制,先处理局部信息,再整合全局信息。
  1. 如何在预训练阶段提升模型的性能

提升预训练性能的方法包括:

  • 数据增强:使用数据增强技术增加训练样本多样性。
  • 知识蒸馏:使用教师模型指导学生模型的训练。
  • 多模态训练:利用多种模态的数据进行联合训练。
  1. 知识蒸馏

知识蒸馏是一种将大型模型的知识转移到较小模型的技术。通过让学生模型模仿教师模型的行为,可以保留大部分性能,同时减小模型大小。

  1. 量化

量化是指将模型的权重和激活函数从高精度转换为低精度,以减少内存占用和加快推理速度。常用的方法包括8位量化和4位量化。

  1. 混合精度训练

混合精度训练结合了高精度(如FP32)和低精度(如FP16)的数据类型,以加快训练速度并减少内存使用。这种方法可以显著提高训练效率。

  1. 分布式训练(DP, MP, DDP, PP);Zero的三个阶段
  • Data Parallelism (DP):数据并行,每个GPU上都有完整的模型副本。
  • Model Parallelism (MP):模型并行,将模型的不同部分分配到不同的GPU上。
  • Distributed Data Parallelism (DDP):分布式数据并行,结合了数据并行和模型并行的优点。
  • Pipeline Parallelism (PP):管道并行,将模型按层分段并在多个GPU上进行流水线处理。 Zero的三个阶段:
  • Zero Stage 1:每个GPU上保存完整的模型副本。
  • Zero Stage 2:将模型参数分区到不同的GPU上。
  • Zero Stage 3:进一步优化内存使用,减少通信开销。
  1. 多模态CLIP

CLIP(Contrastive Language-Image
Pre-training)是一种多模态模型,通过对比学习将文本和图像进行关联。它可以用于生成描述图像的文字,或者根据文字生成图像。

  1. 多模态的实现方式(双流、单流)
  • 双流架构:分别处理不同模态的数据,然后在高层进行融合。
  • 单流架构:将所有模态的数据整合在一起,通过共享的神经网络进行处理。

最后

为了助力朋友们跳槽面试、升职加薪、职业困境,提高自己的技术,本文给大家整了一套涵盖AI大模型所有技术栈的快速学习方法和笔记。目前已经收到了七八个网友的反馈,说是面试问到了很多这里面的知识点。

在这里插入图片描述

每一章节都是站在企业考察思维出发,作为招聘者角度回答。从考察问题延展到考察知识点,再到如何优雅回答一面俱全,可以说是求职面试的必备宝典,每一部分都有上百页内容,接下来具体展示,完整版可直接下方扫码领取。

文档适合人群

  • 在校学生,想学习AI相关内容去公司实习或者找工作,用大模型为简历增加亮点;
  • 刚参加工作同学不久,想学习大模型相关内容升职加薪或者跳槽;
  • 想“偷懒”省事,想获取一些大模型面试相关资料、阅读整理好的信息;
  • 想近距离交流,获得更多经验和第一手信息;

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值