AI面试
文章平均质量分 85
聚焦于以AI为主题,涉及机器学习、深度学习等多领域的保研/考研复试面试题,想来可能会对工作面试也有一定的帮助,故在此分享
Lewiz_124
这个作者很懒,什么都没留下…
展开
-
【面试】Decoder阶段的多头自注意力和Encoder的多头自注意力有什么区别?
在Transformer模型中,和阶段都使用了多头自注意力机制,但它们的具体功能和操作有所不同。特别是在解码阶段,有一些特殊的设计,以适应生成任务的需求。原创 2024-09-09 15:17:52 · 385 阅读 · 0 评论 -
【面试】为什么在点积注意力计算中将结果除以embedding size的平方根?
在Transformer中,将Query和Key的点积结果除以词向量维度的平方根(dk\sqrt{d_k}dk避免数值过大,保持点积的数值在合理范围内。确保Softmax输出更加平衡,使模型能够更有效地捕捉序列中的全局信息。提高梯度的稳定性,使模型的训练更加稳定,减少梯度消失的风险。原创 2024-09-09 15:09:32 · 708 阅读 · 0 评论 -
【面试】Transformer中,为什么Query (Q) 和 Key (K) 使用不同的权重矩阵生成?为什么不能使用同一个值进行自身的点乘?
提供更多的学习灵活性,分别为查询任务和序列描述学习不同的特征。避免模型退化成只关注自相关,而无法捕捉全局依赖。减少信息瓶颈,使模型能够提取出更多上下文信息。更好地适应无序列依赖的任务场景。原创 2024-09-09 14:56:58 · 641 阅读 · 0 评论 -
【面试】Transformer计算attention时为何选择点乘而不是加法?两者在计算复杂度和效果上有什么区别?
Transformer选择点乘注意力是因为其计算效率更高,可以通过矩阵乘法进行并行优化,尤其适合大规模的模型训练和推理。在计算复杂度上,虽然理论上点乘和加法注意力的复杂度都是OdO(d)Od,但点乘在实际硬件中通过并行化能够显著提升计算速度。在效果上,点乘注意力能够有效衡量向量的相似性,尤其在高维度向量时,通过缩放避免数值不稳定问题,而加法注意力由于非线性操作的引入,效果上并无显著提升,且计算更为复杂。因此,在Transformer中使用点乘注意力是一种更高效、可扩展的选择。原创 2024-09-09 11:05:37 · 746 阅读 · 0 评论 -
【面试】介绍一下T5模型
T5 模型的核心优势在于它的统一文本到文本框架,通过这种方式,它能够同时处理理解和生成任务。它基于 Transformer 的编码器-解码器架构,使用了大规模的多任务学习和填空任务进行预训练。T5 展现了卓越的通用性,能够在多种 NLP 任务上取得出色的表现。原创 2024-09-07 15:24:29 · 733 阅读 · 0 评论 -
【面试】什么是 Layer Normalization?为什么 Transformer 需要它?
Layer Normalization(层归一化)是一种正则化技术,旨在缓解神经网络训练过程中的不稳定性。其核心思想是在每一层网络的计算输出上进行归一化,确保神经元的激活值在合理范围内,避免过大或过小的梯度。原创 2024-09-07 14:38:50 · 560 阅读 · 0 评论 -
【面试】Transformer 在长序列处理上的挑战有哪些?如何解决这个问题?
Transformer 在处理长序列时的挑战主要集中在计算复杂度高、内存占用大以及长距离依赖建模的困难上。为解决这些问题,研究人员提出了多种方法,如稀疏注意力、线性注意力、分块处理和低秩近似等。通过这些改进,Transformer 逐渐克服了长序列处理的瓶颈,能够在计算资源和性能之间取得更好的平衡。原创 2024-09-07 14:26:10 · 670 阅读 · 0 评论 -
【面试】Positional Encoding 的原理是什么?公式如何表达?为什么要这样设计?
Positional Encoding 是 Transformer 模型引入序列位置信息的方式,它通过正弦和余弦函数为序列中的每个位置生成一个位置编码,并将其加到词向量中,使得模型能够有效地捕捉输入序列中的绝对和相对位置信息。这种设计通过周期性变化提供了多尺度的信息捕捉能力,同时避免了参数膨胀问题,是 Transformer 模型处理序列数据时的一个重要组成部分。原创 2024-09-07 14:18:22 · 883 阅读 · 0 评论 -
【面试】为什么要使用多头注意力而不是单头注意力
面试官提问:为什么要使用多头注意力而不是单头注意力?参考回答:多头注意力(Multi-Head Attention)是 Transformer 模型中的一个关键组件,它通过同时执行多个注意力机制,极大地提升了模型的表达能力。与单头注意力相比,多头注意力的优势主要体现在以下几个方面:在单头注意力中,模型只会通过一次注意力机制来计算序列中各位置之间的依赖关系,这限制了它对输入信息的多样性捕捉。注意力机制通过 Query、Key、Value 计算注意力权重后进行加权求和,生成上下文向量,但这个过程只会从一个视角去原创 2024-09-07 13:09:24 · 315 阅读 · 0 评论 -
【面试】Cross Attention 和 Self Attention 主要的区别是什么?
是 Transformer 架构中的核心机制,主要用于捕捉。原创 2024-09-07 12:57:28 · 534 阅读 · 0 评论 -
【面试】Transformer是如何避免序列依赖的?与RNN的主要区别是什么?
Transformer通过自注意力机制和并行处理,避免了RNN的序列依赖问题,并能够更好地捕捉长距离依赖。在效率和性能上,Transformer的表现显著优于RNN,特别是在处理长序列任务时,比如自然语言处理中的机器翻译和文本生成。两者的根本区别在于并行处理与顺序处理,以及全局依赖建模与局部依赖建模。这使得Transformer成为了当前深度学习中最成功的架构之一,广泛应用于多个领域。原创 2024-09-07 11:16:05 · 663 阅读 · 0 评论 -
【面试】介绍一下CLIP模型
CLIP,全称为。原创 2024-09-07 00:08:35 · 982 阅读 · 0 评论 -
【面试】Transformer可以分为哪些类别?
*视觉Transformer(Vision Transformer, ViT)**通过将图像分割成一系列“补丁”(patch),然后像处理文本序列一样处理图像数据,在图像分类、检测等任务中表现优异。模型能够处理多种不同类型的数据,如文本、图像、音频等,适用于需要同时理解多个模态的任务,如视觉问答(Visual Question Answering, VQA)和图像字幕生成(Image Captioning)。主要用于降低Transformer在计算和内存上的开销,适用于边缘设备或资源受限的场景。原创 2024-09-06 23:25:14 · 796 阅读 · 0 评论 -
【面试】谈论一下Seq2Seq模型未来的发展趋势
Seq2Seq模型在未来的发展中,将朝着更高效的注意力机制、更强大的预训练模型、多模态融合、轻量化部署、与强化学习结合以及可解释性等方向演进。这些趋势将进一步提升Seq2Seq模型在自然语言处理和其他领域的表现,使其能够处理更加复杂的任务,并在更广泛的应用场景中发挥作用。原创 2024-09-06 23:02:16 · 701 阅读 · 0 评论 -
【面试】介绍一下Q-Learning
Q-Learning 是强化学习(Reinforcement Learning)中的一种经典的。原创 2024-09-06 22:27:31 · 738 阅读 · 0 评论 -
【面试】介绍一下强化学习
强化学习(Reinforcement Learning, RL)是一种机器学习的分支,它与监督学习和无监督学习不同,主要通过。总的来说,强化学习通过环境交互和反馈来优化决策策略,解决了传统监督学习中需要大量标注数据的问题,在实际场景中的潜力巨大。通常用来建模强化学习问题,其中未来状态只依赖于当前状态和动作,而不依赖于过去的状态。随着深度学习的结合,强化学习中的智能体可以处理高维度的状态空间,形成了。,让智能体学会一种策略,以在长期内获得最大的累积奖励。,显著提升了复杂任务的表现。强化学习的目标是通过。原创 2024-09-06 19:44:11 · 283 阅读 · 0 评论 -
【面试】介绍一下PCA算法及其过程
PCA是一种强大的降维工具,通过线性变换将数据投影到新的坐标系中,使得新坐标系中的各个维度是无关的,并且尽可能多地保留原始数据的方差信息。PCA的应用广泛,包括降维、数据压缩、特征提取和数据可视化等。在实际应用中,PCA帮助我们简化数据结构、提高分析效率。原创 2024-08-30 00:23:22 · 1046 阅读 · 0 评论 -
【面试】解释一下什么是人工智能中的黑箱问题
1.1 什么是黑箱?在人工智能中,黑箱指的是那些内部机制对用户或开发者而言不可见或难以理解的系统或模型。对于黑箱模型,我们可以观察其输入和输出,但模型内部如何处理这些输入并得出输出的过程是复杂且不透明的。例如,一个深度神经网络在图像分类任务中,可以高效地将一张图像分类为“猫”或“狗”,但是人们很难解释模型为什么做出这样的分类,以及哪些特征在决策过程中起到了关键作用。1.2 为什么称为“黑箱”?人们将这些模型称为“黑箱”,是因为它们的决策过程不透明,像是一个封闭的盒子。原创 2024-08-29 22:54:32 · 866 阅读 · 0 评论 -
【面试】解释一下Transformer模型中的Encoder和Decoder是如何交互的
4.1 关键点Encoder和Decoder的交互主要通过Decoder中的Encoder-Decoder Attention层实现。这个层次使Decoder能够在每一步生成输出时都参考输入序列的上下文信息。Encoder处理输入序列并生成一个上下文向量序列,Decoder通过注意力机制使用这些上下文向量来逐步生成目标序列。4.2 优势这种交互方式使得Transformer能够有效处理长距离依赖和复杂的语义关系,适用于多种自然语言处理任务,如机器翻译、文本生成等。原创 2024-08-29 22:43:03 · 574 阅读 · 0 评论 -
【面试】介绍一下LightGBM,它相比于GBM有哪些优越之处,为什么?
LightGBM相比传统GBM在多个方面具有优越性,包括基于直方图的决策树算法、Leaf-wise增长策略、差分计算技术以及对分布式训练的支持等。这些改进使得LightGBM在处理大规模数据集时效率更高、内存消耗更少、训练速度更快,并且在保持模型高效性和灵活性的同时,具有更好的性能和精度。因此,LightGBM被广泛应用于各种机器学习任务中,特别是需要处理大量数据和高维特征的场景。原创 2024-08-23 12:41:04 · 615 阅读 · 0 评论 -
【面试】解释线性回归和逻辑回归的区别
线性回归和逻辑回归的根本区别在于它们的目标。线性回归用于预测连续的数值型变量,输出是一个实数值,并通过最小化均方误差来优化模型。逻辑回归用于分类任务,输出是一个概率值,并通过最大化对数似然或最小化交叉熵损失来优化模型。尽管逻辑回归的名字中带有“回归”一词,但它实际上是一种分类算法,特别适合于二分类问题。原创 2024-08-23 12:26:48 · 703 阅读 · 0 评论 -
【面试】解释一下Batch Normalization(BN)在训练集和测试集上有什么不同
在训练阶段,Batch Normalization使用当前批量的均值和方差来标准化输入,并同时更新全局的移动平均值;而在测试阶段,BN则使用训练时积累的全局均值和方差来标准化输入,以确保模型的稳定性和一致性。通过在训练和测试阶段采取不同的处理方式,BN能够有效地减少模型的内部协变量偏移,加快收敛速度,同时提高模型的泛化能力。原创 2024-08-22 20:26:16 · 702 阅读 · 0 评论 -
【面试】介绍一下Adam优化器,Batch Normalization(BN)的作用,以及为什么BN能够加快收敛速度
Adam优化器是一种自适应学习率优化算法,通过结合动量和RMSProp的优点,能够在训练过程中自动调整学习率,提高收敛速度和稳定性。而通过标准化每一层的输入,减少了内部协变量偏移现象,允许使用更高的学习率,并且稳定了梯度的传递,从而显著加快了神经网络的收敛速度。这两者结合使用,通常能够显著提高深度学习模型的训练效率和效果。原创 2024-08-22 20:08:39 · 678 阅读 · 0 评论 -
【面试】介绍一下TF-IDF
TF-IDF是一种经典且有效的文本特征提取方法,通过结合词频和逆文档频率来衡量词语在文档中的重要性。它在信息检索、文本分类、关键词提取和文本相似度计算等任务中广泛应用。虽然TF-IDF简单有效,但它也有一定的局限性,例如无法捕捉词语的语义信息。在实际应用中,TF-IDF常常与其他技术结合使用,以弥补其不足。原创 2024-08-22 19:58:14 · 871 阅读 · 0 评论 -
【面试】如果K-Means的初始簇心随机选择不理想,怎么才能让它变得更稳定
K-Means算法的初始簇心选择对聚类结果有很大影响。为了提高K-Means的稳定性和聚类质量,可以使用改进的初始化方法,如K-Means++多次运行取最优结果使用层次聚类进行初始化增加簇心初始化的均匀性等。这些方法可以有效地减少随机初始化带来的不稳定性,帮助K-Means算法更快、更准确地收敛到全局最优解。原创 2024-08-22 19:34:30 · 464 阅读 · 0 评论 -
【面试】阐述KNN和K-Means的区别
KNN和K-Means虽然名称相似,但它们用于解决不同的问题。KNN是监督学习算法,主要用于分类和回归,通过计算新数据点与训练数据的距离,决定其类别。K-Means是无监督学习算法,主要用于聚类,通过迭代更新簇中心,将数据点划分为多个簇。KNN的优势在于其简单性和灵活性,但计算复杂度较高,而K-Means的优势在于其效率高、易于解释,但对初始选择敏感且需要指定簇数。原创 2024-08-22 17:58:38 · 539 阅读 · 0 评论 -
【面试】介绍一下Word2Vec
Word2Vec 是一种广泛应用的词嵌入技术,通过将词语映射为低维向量来捕捉词语的语义关系。包括 Skip-Gram 和 CBOW 两种模型,分别通过预测上下文词或中心词来学习词嵌入。包括数据准备、神经网络训练、负采样优化等,旨在生成高质量的词向量。包括语义相似度计算、文本分类、情感分析、推荐系统等。Word2Vec 能捕捉语义关系,适用于大规模文本数据,但对上下文和句法结构的处理能力有限。原创 2024-08-22 17:29:27 · 565 阅读 · 0 评论 -
【面试】解释残差网络,以及残差是如何具体起作用的
定义:残差网络(ResNet)是一种深度神经网络架构,它的核心思想是在每一层或每几层网络之间引入“残差连接”(Residual Connection),使网络能够学习残差函数(Residual Function),而不是直接学习映射函数。残差连接通过“捷径”将输入直接传递到后面的层,从而缓解了深度网络训练中的梯度消失问题。在深度神经网络中,随着网络层数的增加,梯度传递过程中的消失和爆炸问题变得越来越严重,导致网络难以收敛,训练误差也可能会随着网络深度的增加而增大。原创 2024-08-21 16:13:48 · 725 阅读 · 0 评论 -
【面试】介绍NER任务以及相关技术
定义:,即命名实体识别,是一种信息提取技术,旨在从非结构化文本中提取命名实体,并将这些实体分配到特定类别,如人名、地名、组织机构、时间、日期、数量等。比如,在句子“John works at Google in California.”中,NER任务需要识别出“John”是人名,“Google”是组织机构名,“California”是地名。应用场景:NER在信息抽取任务中广泛应用,比如在新闻文章中自动提取重要人物、地点、组织等信息。原创 2024-08-21 10:49:18 · 761 阅读 · 0 评论 -
【面试】介绍MNER任务的最新研究成果
多模态命名实体识别(MNER)是一个复杂且快速发展的领域。近年来,研究者们提出了许多创新的技术来解决MNER问题,尤其是基于Transformer的模型、多模态融合、跨模态对齐、自监督学习、以及领域自适应等技术。这些研究不仅提升了MNER的性能,也为其他多模态任务提供了新的思路。随着多模态数据的日益增长,MNER技术将在更多领域中得到广泛应用。原创 2024-08-21 10:57:30 · 791 阅读 · 0 评论 -
【面试】解释一下梯度下降法和牛顿迭代法的算法过程
梯度下降法是通过一阶导数(梯度)信息逐步向下迭代,具有计算简便的优点,但收敛速度相对较慢,尤其是在复杂函数的情况下。它适合处理高维、大规模的数据集。牛顿迭代法利用了二阶导数信息(Hessian矩阵)来调整步长,能够更快地收敛到极值点,但计算开销较大。它适合函数形状较为简单、维度较低的问题。这两种方法在优化问题中各有优缺点,具体选择哪种算法要根据实际应用场景来定。在处理大规模机器学习问题时,梯度下降法由于其计算效率而广泛应用,而牛顿法则更多用于需要高精度解的小规模优化问题。原创 2024-08-20 16:55:09 · 618 阅读 · 0 评论 -
【面试】解释一下PAC理论是什么,它的全称是什么
PAC理论,全称为“Probably Approximately Correct”理论,用于描述学习算法在有限样本下的泛化能力,定义了学习算法在新数据上大致正确的概率。原创 2024-08-13 13:07:24 · 625 阅读 · 0 评论 -
【面试】解释Attention和Self-Attention的区别
是一种用于处理序列间关系的机制,允许模型选择性地关注输入序列的不同部分,广泛应用于机器翻译、图像字幕生成等任务。是Attention的一种特殊形式,用于建模同一序列内元素之间的关系,特别适合处理长序列数据,并且是Transformer模型的核心机制。原创 2024-08-12 10:15:59 · 1092 阅读 · 0 评论 -
【面试】解释什么是没有免费午餐定理
没有免费午餐定理指出,在所有可能的任务中,没有一种算法能够在所有任务上表现优于其他算法。该定理强调了根据具体任务选择和调整算法的重要性,提醒我们在算法选择时需要考虑任务的特性。在机器学习模型选择、优化算法选择以及集成学习等场景中,没有免费午餐定理帮助我们理解为什么没有一种万能的算法可以在所有情况下都表现最好。原创 2024-08-09 15:03:32 · 464 阅读 · 0 评论 -
【面试】列举一些常见的神经网络正则化技术
通过添加权重惩罚项,防止过拟合。L1正则化产生稀疏解,L2正则化防止权重过大。通过随机丢弃神经元,提高模型的泛化能力。在验证集性能开始恶化时停止训练,防止过拟合。原创 2024-08-09 15:23:28 · 322 阅读 · 0 评论 -
【面试】列举常见的距离度量公式,并说明它们的优缺点
直观且广泛应用,但对尺度和离群点敏感。对异常值较为鲁棒,适合高维数据,但不如欧氏距离直观。灵活且适应性强,但参数选择复杂。考虑最大差异,适用于特定场景,但可能丢失其他信息。关注方向相似性,适用于高维稀疏数据,但无法衡量绝对距离。适用于集合和二值数据,但对重复和小样本数据不敏感。原创 2024-08-10 16:49:10 · 753 阅读 · 0 评论 -
【面试】介绍一下Boosting
Boosting 是一种强大的集成学习方法,通过组合多个弱学习器来提升模型的预测能力。按顺序训练多个模型,每个模型都试图纠正前一个模型的错误。包括 AdaBoost、GBM、XGBoost、LightGBM 和 CatBoost 等。高精度、强适应性,特别适合处理复杂数据集。对噪声敏感、计算复杂度高,调参复杂。原创 2024-08-16 14:24:40 · 728 阅读 · 0 评论 -
【面试】什么是归一化?为什么要进行归一化?
归一化是将数据缩放到一个特定范围,使不同特征的数据在同一尺度上。消除特征间尺度差异,提高模型训练的稳定性和收敛速度,避免数值计算问题。Min-Max归一化和Z-score标准化。原创 2024-08-08 13:09:39 · 570 阅读 · 0 评论 -
【面试】解释类别不平衡,并给出NLP中对这个问题的解决方案
在分类任务中,不同类别的样本数量分布不均衡的情况。解决类别不平衡问题的方法:包括欠采样、过采样、SMOTE等方法,通过调整样本数量平衡数据集。通过加权交叉熵、聚焦损失等方法,使模型更关注少数类样本。通过生成新样本增加少数类的样本数量和多样性。使用平衡随机森林、Bagging、Boosting等方法,提高少数类的识别能力。原创 2024-08-09 17:48:00 · 844 阅读 · 0 评论 -
【面试】什么是过拟合和欠拟合?有哪些解决方案?
过拟合(Overfitting):模型在训练数据上表现很好,但在测试数据上表现较差,缺乏泛化能力。模型过于复杂、数据量不足、缺乏正则化。正则化、简化模型、增加数据量等。欠拟合(Underfitting):模型在训练数据和测试数据上都表现较差,无法捕捉数据的内在结构。模型过于简单、特征不足、训练时间不足。提高模型复杂度、增加特征、延长训练时间等。原创 2024-08-09 14:51:10 · 413 阅读 · 0 评论