【2025版】史上最新最全面的大模型面经，面试顺利通关，（非常详细）从零基础到精通，收藏这篇就够了！-CSDN博客

本文链接：https://blog.csdn.net/leah126/article/details/148121753

面试经验专栏

本篇总结了AIGC面经中可能会问到的模型训练通识类题目及其答案。

本篇开始重点介绍面经中可能会问到的模型训练通识类题目及其答案。

但是需要特别注意的是，此类宽泛的问题类似于命题作文，看似简单且答案明确，但实际考量的空间非常大；单纯地背完八股面试官往往是不满意的，一般的反应是再问更细节的内容或者直接反馈觉得你还说的不够。

这种时候最好要结合一些自身的实践经验，或者将题目与答案说的更深一些。

本篇在比较重要的问题下写答案时也会尽量避免过于宽泛和官方的用词，并结合一些实际经验；希望大家在自己复习准备时也尽量思考得更深入。

下面是一个问题的快捷目录。

面试题

2. 过拟合怎么解决

3. Dropout 有什么作用？训练和推理时怎么用？

4. 常见的激活函数及其优缺点

5. 数据不平衡问题如何解决

6. 有哪些学习率调整策略

7. Warm up一般是在什么情况下使用的

8. 模型压缩有哪些方法，介绍一下

9. 模型陷入局部极小了怎么办

10. 当资源很少时怎么做数据增强

11. Adam如何设置参数使学习率衰减

12. 为什么出现梯度爆炸，梯度爆炸怎么解决

13. 神经网络权重全 0 初始化会有什么问题？应该怎样初始化？讲讲 Xavier 初始化

14. 现在有哪些归一化方法

答案

1. 请具体介绍一下L1、L2正则化

正则化主要目的是控制模型复杂度，减小过拟合。正则化方法是在原目标（代价）函数中添加惩罚项，对复杂度高的模型进行“惩罚”。

L1：向量绝对值和，趋向于产生少量的特征，而其它的特征都为0，有助于处理高维数据集, 使权重稀疏。

L2：向量平方和，会选择更多的特征，但这些特征都接近于0，使权重平滑。

2. 过拟合怎么解决？

减少参数、early-stop、正则化、drop-out

3. Dropout 有什么作用？

整个dropout过程就相当于对很多个不同的神经网络取平均。而不同的网络产生不同的过拟合，一些互为“反向”的拟合相互抵消就可以达到整体上减少过拟合。

实际用的时候，训练的时候会随机的丢弃一些神经元，预测的时候不随机丢弃。

4. 常见的激活函数及其优缺点

5. 数据不平衡问题如何解决？

直接设置初始学习率为0.01或0.001，对大多数网络都适用。
使用Smith的方法，首先设置一个非常小的学习率，比如1e-5，每个batch后更新网络，同时增加学习率，统计每个batch计算的loss。最后描绘出学习率的变化曲线和loss曲线，确定最优学习率。
StepLR：每过step_size轮，将此前的学习率乘以gamma。
MultiStepLR：在每个milestone时，将此前学习率乘以gamma。
ExponentialLR：每一轮会将学习率乘以gamma，所以这里千万注意gamma不要设置的太小，不然几轮之后学习率就会降到0。

7. Warm up一般是在什么情况下使用的

首先需要介绍一下优化器，优化器的作用是在模型训练过程中来更新模型参数，最小化（或最大化）损失函数，以提升模型效果。

优化器主要依据两个条件确定，一个是学习率另一个是梯度；一些好的优化器本身的设计就可以做到动态的调整学习率和梯度。

那warm up是什么情况下使用的呢？

就学习率来说，优化器本身是根据梯度来调整学习率的，一般刚开始训练时梯度很大（误差大）所以学习率也较大，这样的设计符合让模型尽快收敛的需求；

但是在有些情况下，尤其是使用了预训练模型进行下游任务时，学习率太大会带来不稳定问题，使模型发生振荡，所以需要让刚开始训练时有一个较小的学习率，确保模型能够有良好的收敛性，因此就有了学习率预热和学习率衰减这样的策略来辅助调整学习率。

warmup就是一种学习率预热策略，就是使学习率从0开始增加，增加到warmup设定值时再逐渐减小，当然增加和减小的过程可以是线性的也可以是非线性的。