AI学习与面试问题汇总（深度学习）-CSDN博客

本文链接：https://blog.csdn.net/2303_79001442/article/details/132777674

搜集了一些关于机器学习的一些问题，可以应用于学习时的知识自检或者面试前的准备。但使用前需要注意的是：问题和答案来源于网络，可能存在不全、过时或者错误的情况，需要读者自行判断与思考。所有的答案仅提供参考价值，真正的答案需要自己从实践和探索中获取。

答案的获取方式在文章末尾。

AI算法学习与面试题汇总（深度学习）
为什么深度学习中的图像分割要先编码后解码	深度学习和机器学习本质的区别在哪里？
全连接的作用，与1x1卷积层的关系	深度学习的性能为什么会随着数据增多而提高？
33的卷积核和一个13加一个3*1的有什么区别	相比机器学习，深度学习有什么优势？
什么是卷积?	如何判断深度学习模型中存在梯度消失问题？
简述下什么是生成对抗网络。	如何判断深度学习模型是否存在梯度爆炸问题？怎么确定？
数据不平衡问题。	什么是早停策略？
平均池化average pooling和(全局)最大池化max pooling的区别	什么是增量学习？
ResNet为什么好用	在设计神经网络时，神经网络的广度和深度哪个更重要？
Resnet的缺点	神经网络中的隐藏层计算的内容是什么？
解释空洞卷积，空洞卷积有什么问题？	在深度学习模型中，如何选择损失函数？
CNN和RNN有什么区别？什么时候使用它们？	什么是迁移学习？
在CNN中，Max Pooling与Average Pooling的优缺点是什么？	卷积层什么时候与全连接层等价？
比较CNN和多层感知机MLP	dropout对神经网络训练有什么影响？
CNN中的全连接层*有什么作用？	预训练对神经网络有什么好处？
解释RELU激活函数在卷积神经网络中的意义	什么是multitask learning？什么时候使用它较为合适？
解释Valid Paddding和Same Padding	同等参数量情况下，深层神经网络比浅层神经网络效果好的原理是什么？
对于给定的图像输入尺寸、Filter Size、 Stride 和 Padding大小，feature map 的尺寸是多少？	比较svm和deep learning
Pooling有哪些不同类型？说明他们的特点。	Relu激活函数比sigmoid函数好的地方在哪里？
解释CNN中“参数共享”和“稀疏连接”的意义	集成学习在深度学习中有什么运用？
可以使用CNN执行降维操作吗？如果可以，CNN中哪个相关子层执行了降维操作？	深度学习怎么减轻/避免维度诅咒？
语义分割和实例分割有什么区别？	你了解多少种跳转链接（skip-connection）方法？
如何评估目标检测模型的好坏？	怎样使用遗传算法优化神经网络？
讲述标准的计算机视觉处理系统的主要处理步骤	解释机器学习中的过拟合现象？
目标检测领域，如何判断一个特征是好特征？	什么是hyper-parameters？
CNN在图像处理上表现好的原因	解释机器学习中的欠拟合现象
BatchNorm层的具体计算及作用	什么是模型学习率？学习率高或低对模型学习有什么影响？
目标检测里如何有效解决常见的前景少背景多的问题	知道哪些关于Hyperparameters Tuning的方法？
说一些你知道的CNN架构	在设计神经网络时，有哪些方法防止过拟合？
基于区域的目标检测神经网络(R-CNN)、Fast R-CNN和Faster R-CNN之间有什么区别？	什么是混淆矩阵？
知道哪些关于目标检测的网络结构？	解释ROC曲线
若CNN网络很庞大，在手机上运行效率不高，对应模型压缩方法有了解吗？	ROC曲线和AUC值如何帮助衡量模型的好坏？
ResNet中Residual block解决了什么问题？	使用AUC值衡量模型性能有什么好处和坏处？
使用Cutout进行数据增广有什么样的优势？	解释什么是F1-Score
GoogLeNet使用了怎样的方式进行了网络创新？	当训练数据存在类别间分布不平衡时，如何选择评估指标？
ViT算法中是如何将Transformer结构应用到图像分类领域的？	算法A具有更高的Accuracy，算法B具有更高的Recall（召回率），如何判断算法A和算法B哪个更好？
NMS的原理以及具体实现？	使用早停策略时，可能会有什么问题？
OCR常用检测方法有哪几种、各有什么优缺点	什么是AIC指标？
介绍一下DBNet算法原理	什么是BIC指标？
DBNet 输出是什么？	解释什么是贝叶斯优化方法？
DBNet loss	解释机器学习中的凸优化
介绍以下CRNN算法原理	解释Adam优化器
介绍一下CTC原理	Adam算法有什么局限性？
OCR常用的评估指标	Batch Size如何影响梯度下降方法的收敛性？为什么？
OCR目前还存在哪些挑战/难点？	什么情况下，选择遗传算法作为优化算法？
什么是RNN？	Adagrad算法是怎样调整学习率的？
RNN是怎么从单层网络一步一步构造的的?	比较牛顿法和梯度下降
RNN、LSTM、GRU区别？	讲述模型蒸馏的原理与操作
如何解决RNN梯度爆炸和弥散的问题的？	简述Label Smoothing及其作用
RNN和CNN之间有什么区别？在哪些情况下分别使用彼此？	DSSM模型的原理是什么？
为什么在处理时间序列问题上，RNN会优于MLP？	DSSM怎样解决OOV问题的？
RNN的输入有几个维度？每个维度分别代表什么？RNN的输出呢？	推荐系统的PV和UV代表什么？
RNN和传统的全连接网络之间有什么差别？	协同过滤推荐和基于内容的推荐的区别是什么？
LSTM和GRU结构上的区别有哪些？	说一说推荐系统的交叉验证的方法？
还有哪些其它的解决梯度消失或梯度爆炸的方法？	为什么需要进行模型压缩？
LSTM模型中存在sigmoid和tanh函数，两者分别用于哪里？	模型压缩的基本方法有哪些？
RNN一般有哪几种常用建模方式?	DynaBERT模型的创新点是什么？
LSTM是如何改进RNN，保持长期依赖的?	TinyBERT是如何对BERT进行蒸馏的？
LSTM在每个时刻是如何融合之前信息和当前信息的?	什么是玻尔兹曼机？
使用LSTM如何简单构造一个情感分析任务?	傅里叶变换在深度学习中有什么运用？
介绍一下GRU的原理	什么是指数加权平均、偏差修正？
word2vec提出了哪两种词向量训练方式	学习率衰减常用参数有哪些
word2vec提出了负采样的策略，它的原理是什么，解决了什么样的问题？	准确率的局限性是什么？
word2vec通过什么样任务来训练词向量的?	准确率（accuracy）、精确率（precision）、召回率（recall），各自的定义，各自的缺陷
如果让你实现一个命名实体识别任务，你会怎么设计?	ROC曲线和PR曲线的区别，适用场景，各自优缺点
在命名实体识别中，一般在编码网络的后边添加CRF层有什么意义	AUC的意义，AUC的计算公式？
介绍一下CRF的原理	roc曲线中，高于和低于对角线表示意义
CRF是如何计算一条路径分数的?	多分类 auc 怎么算？
CRF是如何解码序列的?	了解正则化么？
使用bilstm+CRF做命名实体识别时，任务的损失函数是怎么设计的？	协方差和相关性有什么区别？
BERT的结构和原理是什么?	说说梯度下降法。
BERT使用了什么预训练任务?	牛顿法和梯度下降法有什么不同？
说一下self-attention的原理?	说说共轭梯度法？
Conformer模型结构	说说常见的损失函数。
Transformer如何实现流式识别	当机器学习性能遭遇瓶颈时，你会如何优化的？
multi-head attention中多头的作用	什么样的资料集不适合用深度学习?
Transformer为何使用多头注意力机制？	请问人工神经网络中为什么ReLu要好过于Tanh和Sigmoid function?
Transformer的self attention为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？	为什么LSTM模型中既存在Sigmoid又存在Tanh两种激活函数？
Self-attention计算时为什么在进行softmax之前需要除以dk的平方根	神经网络的深度和宽度分别指的是什么？
transformer在音视频领域落地时需要注意的问题	上采样的原理和常用方式
transformer中的mask机制的作用	下采样的作用是什么？通常有哪些方式？
Transformer计算attention的时候为何选择点乘而不是加法？两者计算复杂度和效果上有什么区别？	激活函数是什么？你知道哪些常用的激活函数？
为什么在进行多头注意力的时候需要对每个head进行降维？	YOLO系列网络的进阶之路
简单介绍一下Transformer的位置编码？有什么意义和优缺点？	训练过程中loss一致无法收敛，可能的原因
为什么transformer使用LayerNorm而不是BatchNorm？LayerNorm 在Transformer的位置是哪里？	介绍一下目标检测的主要评测指标
Transformer中，Encoder端和Decoder端是如何进行交互的？	阐述一下如何检测小物体，小目标难以检测的原因
Transformer中，Decoder阶段的多头自注意力和encoder的多头自注意力有什么区别？	阐述一下目标检测任务中的多尺度
Bert的mask为何不学习transformer在attention处进行屏蔽score（sequence mask）的技巧？	YOLOv3框是怎么得到的？ YOLOv3有什么致命问题？
解释self- attention，它与其他attention的异同？	残差网络为什么能做到很深层？
Transformer 相比于 RNN/LSTM，有什么优势？为什么？	为什么随机森林能降低方差？
除了绝对位置编码技术之外，还有哪些位置编码技术？	反卷积有哪些用途？
在 BERT 中，token 分哪3 种情况 mask，分别的作用是什么？	CNN优缺点
elmo、GPT、bert三者之间有什么区别？	随机森林的随机性体现在哪里？
简述BERT模型的优缺点	为什么要做模型压缩，模型压缩方法有哪些？
BERT训练时使用的学习率 warm-up 策略是怎样的？为什么要这么做?	神经网络的参数为什么要随机初始化？
BPE生成词汇表的算法步骤是什么？	知道哪些常见的损失函数？
Multi-Head Attention的时间复杂度是多少？	mse对于异常样本的鲁棒性差的问题怎么解决？
Transformer的权重共享在哪个地方？	二分类为什么用二元交叉熵？为什么不用mse？
Transformer的self-attention的计算过程是什么？	信息量，信息熵、相对熵（KL散度）、交叉熵、条件熵、互信息、联合熵的概念和公式？
讲一下BERT的基本原理	怎么衡量两个分布的差异？KL散度和交叉熵损失有什么不同？
讲一下BERT的三个Embedding是做什么的？	交叉熵的设计思想是什么？
BERT的预训练做了些什么？	huber loss了解吗？和mse、比起来优势是啥？
BERT,GPT,ELMO的区别	简单说下sigmoid激活函数。
请列举一下BERT的优缺点	梯度下降法找到的一定是下降最快的方向么？
ALBERT相对于BERT做了哪些改进？	请说说随机梯度下降法的问题和挑战？
NSP和SOP的区别是什么？	什么最小二乘法？
什么是强化学习？它与其他机器学习技术相比有什么不同？	标准化与归一化的区别?
怎样定义强化学习中的状态？	Sigmoid、Tanh、ReLu这三个激活函数有什么缺点或不足，有没改进的激活函数？
Q Learning 中的Alpha和Gamma参数代表什么？	为什么引入非线性激励函数？
怎么判断 Q-Learning 算法何时收敛？	为什么不能使用均方差做为分类问题的损失函数？
解释Q-learning算法	为什么max pooling 要更常用？什么场景下 average pooling 比 max pooling 更合适？
讲一下SARSA，最好可以写出其Q(s,a)的更新公式。另外，它是on-policy还是off-policy，为什么？	训练神经网络有哪些调参技巧
请问value-based和policy-based方法的区别是什么？	模型的FLOPs（计算量）指的是什么？怎么计算？
直观地解释什么是强化学习中的策略	有哪些经典的卷积类型？
折扣因子在强化学习中的作用是什么？	增大感受野的方法？
说一些你知道的解决强化学习问题的方法或算法	dropout为什么能解决过拟合？
off-policy和on-policy的好与坏	什么是共线性，如何判断和解决共线性问题？
Q 函数与强化学习中的值函数有何不同？	激活函数有哪些性质？
DQN相比Q-learning有哪些改变？	盲目增大 Batch_Size 有何坏处？
Q-Learning和SARSA之间有什么区别？	调节 Batch_Size 对训练效果影响到底如何？
强化学习的损失函数（loss function）是什么？和深度学习的损失函数有何关系？	什么是鞍点问题？
最优值函数和最优策略为什么等价？	解释神经网络的万能逼近定理
值迭代和策略迭代的区别？	为什么说神经网络是端到端的网络?
如果不满足马尔科夫性，当前时刻的状态和它之前很多很多个状态都有关系，该如何处理问题？	为什么需要迁移学习？
简述蒙特卡罗估计值函数(MC)算法	迁移学习有哪些常用概念？
DQN的两个关键trick分别是什么？	什么是深度网络自适应？
描述随机策略和确定性策略的特点？	GAN在迁移学习中的应用
策略迭代（Policy Iteration）与值迭代（Value Iteration）分别的优势是什么？	如何评估LLM的性能
蒙特卡洛方法是否适用于所有任务？	在开发LLM时，怎样通过人为方法减少LLM的偏见？
蒙特卡洛预测方法如何计算价值函数？	哪些因素会导致LLM中的偏见？
使用时间差异（TD）方法与蒙特卡洛方法进行强化学习时，分别有哪些优势？	GPT和bert有什么不一样？
使用动态规划方法与蒙特卡洛方法进行强化学习时，分别有哪些区别？	如何减轻LLM中的“幻觉”现象
如果环境也是随机的，最优策略是否总是随机的？	有哪些方法可以降低LLM训练时的显存占用
并行环境在强化学习中有什么影响？	Lora微调方法的局限性
深度Q学习和策略梯度法有什么区别？	bf16，fp16半精度训练的区别
为什么常规 Q 学习和 DQN 会高估 Q 值？	有向图模型
Advantage Actor-Critic （A2C）和 Asynchronous Advantage Actor-Critic （A3C）之间有什么区别？	无向图模型
DQN网络的创新点是什么？	图模型的优点
什么是马尔可夫决策过程？	对多模态的了解
什么是SARSA？	多模态的特征融合的方式有哪些？
什么是Q-Learning？	多模态的预训练方式有哪些？
AE与VAE的区别是什么？	简述什么是协同学习
GAN和自动编码器有什么区别和联系？	多模态对齐技术有哪些？
AE模型可以用于特征生成吗？如果可以，怎么做？
GAN网络在训练时的难点是什么？
GAN是怎么训练的？
GAN生成器输入为什么是随机噪声
GAN生成器最后一层激活函数为什么通常使用tanh()？
GAN使用的损失函数是什么？
GAN中模式坍塌(model callapse指什么？)
GAN模式坍塌解决办法
GAN模型训练不稳定的原因
GAN模式训练不稳定解决办法 or 训练GAN的经验/技巧