AI大模型算法实习需要如何准备面试？有哪些方面经常提问？

健忘的派大星

于 2024-10-09 11:24:05 发布

阅读量586

点赞数 16

文章标签：人工智能算法面试语言模型 ai agi 职场和发展

本文链接：https://blog.csdn.net/2401_85327249/article/details/142780022

版权

前言

大模型算法方向的实习最大的问题恐怕是歧视问题。投过几个单位下来感觉，一是学历歧视，二是学术歧视。学历歧视算严重，清北>华五>c9>中9，末9和211双一流就是臭底边，拿不出好论文别想进门。

学术歧视更严重，没有顶会论文等于没有产出，再多实践经验都给你打五折。投过一家比较有意思的单位，卡不到三百张，钱不超四百块，人员学历质量对标智谱，科研产出质量对标月暗，投递简历不用看都知道不符合方向，在大模型赛道没扑棱出几个水花，估计过段时间又得回去做老本行，我不说算力，哪怕你薪资对标一下幻方，这口气我也咽下去了。

而且光研究理论没用，一定多实践，不然碰到不想培养你的，一问没有实践经历不要，好哥哥，全国有几个课题组跑得起预训练?

言归正传，下面列一些我被问过的，和我感觉如果我是hr我一定会问的问题：

注意力的计算公式
几种位置编码，几种norm，几种ffn
为什么自回归是最主流的预训练方法，除此之外还有什么其他的预训练方法
常见的微调方法，以及常见的下游任务
attention结构的几种变体
fashattention的大致原理
提升长文本性能的几种可行做法
如何在预训练阶段提升模型的性能
知识蒸馏
量化
混合精度训练
分布式训练dp，mp，ddp，pp;zero的三个stage
多模态clip
多模态的实现方式(双流、单流)

答案解析

注意力的计算公式

注意力机制的核心在于计算查询（Query）、键（Key）和值（Value）之间的相似度。最常见的注意力计算公式是缩放点积注意力（Scaled
Dot-Product Attention），其公式如下： \text{Attention}(Q, K, V) =
\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V 其中 ( Q ) 是查询矩阵，(
K ) 是键矩阵，( V ) 是值矩阵，( d_k ) 是键向量的维度。

几种位置编码，几种norm，几种ffn

位置编码：常见的位置编码方法包括绝对位置编码（Absolute Positional Encoding）和相对位置编码（Relative Positional Encoding）。
Norm：常用的归一化方法有层归一化（Layer Normalization）、批量归一化（Batch Normalization）和实例归一化（Instance Normalization）。
FFN：前馈神经网络（Feed-Forward Network）在Transformer架构中通常包含两个线性层和一个激活函数，例如ReLU或GELU。

为什么自回归是最主流的预训练方法，除此之外还有什么其他的预训练方法？

回归（Autoregressive）方法，如GPT系列模型，之所以流行是因为它能够很好地捕捉序列中的前后依赖关系。此外，还有掩码语言建模（Masked
Language Modeling, MLM），如BERT，它通过掩码部分输入并预测缺失部分来训练模型。

常见的微调方法，以及常见的下游任务

常见的微调方法包括：

任务特定的微调：针对特定任务（如文本分类、问答等）进行微调。
多任务微调：同时在多个相关任务上进行微调，以共享信息。常见的下游任务包括：
文本分类：情感分析、垃圾邮件过滤等。
问答系统：生成答案以响应问题。
命名实体识别：从文本中识别特定类型的实体。

Attention结构的几种变体

除了标准的Self-Attention，还有：

Multi-Head Attention：通过分割查询、键和值，使用多个头进行并行计算。
Global Attention：全局注意力机制，考虑所有输入位置。
Local Attention：局部注意力机制，只考虑输入的局部区域。

Fast Attention的大致原理

Fast Attention技术旨在加速注意力计算过程，通过使用近似方法减少计算量。例如，使用随机投影（Random
Projection）或其他降维技术来近似注意力矩阵。

提升长文本性能的几种可行做法

提升长文本性能的方法包括：

滑动窗口：将长文本划分为多个较短的段落进行处理。
层次注意力：使用层次结构的注意力机制，先处理局部信息，再整合全局信息。

如何在预训练阶段提升模型的性能

提升预训练性能的方法包括：

数据增强：使用数据增强技术增加训练样本多样性。
知识蒸馏：使用教师模型指导学生模型的训练。
多模态训练：利用多种模态的数据进行联合训练。

知识蒸馏

知识蒸馏是一种将大型模型的知识转移到较小模型的技术。通过让学生模型模仿教师模型的行为，可以保留大部分性能，同时减小模型大小。

量化

量化是指将模型的权重和激活函数从高精度转换为低精度，以减少内存占用和加快推理速度。常用的方法包括8位量化和4位量化。

混合精度训练

混合精度训练结合了高精度（如FP32）和低精度（如FP16）的数据类型，以加快训练速度并减少内存使用。这种方法可以显著提高训练效率。

分布式训练（DP, MP, DDP, PP）；Zero的三个阶段

Data Parallelism (DP)：数据并行，每个GPU上都有完整的模型副本。
Model Parallelism (MP)：模型并行，将模型的不同部分分配到不同的GPU上。
Distributed Data Parallelism (DDP)：分布式数据并行，结合了数据并行和模型并行的优点。
Pipeline Parallelism (PP)：管道并行，将模型按层分段并在多个GPU上进行流水线处理。 Zero的三个阶段：
Zero Stage 1：每个GPU上保存完整的模型副本。
Zero Stage 2：将模型参数分区到不同的GPU上。
Zero Stage 3：进一步优化内存使用，减少通信开销。