算法工程师（NLP/搜索推荐/机器学习) 常考面试题总结

大模型与自然语言处理

于 2024-04-21 10:11:48 发布

阅读量758

点赞数 17

分类专栏： NLP与大模型文章标签：算法自然语言处理机器学习人工智能多模态面试

本文链接：https://blog.csdn.net/2201_75499313/article/details/138025506

版权

NLP与大模型专栏收录该内容

126 篇文章 45 订阅

订阅专栏

节前，我们星球组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、参加社招和校招面试的同学，针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。

汇总合集

今天分享一位我们社群成员的分享总结，喜欢记得收藏、点赞、关注，更多技术交流，文末加入我们社群。

背景：女生，top985 CS 本硕，研究生的方向偏向于NLP/搜索推荐，2024届秋招拿了阿里、百度、联想等offer。

大家都知道今年秋招形式很艰难，互联网大厂更是几乎不招人，面试前在社群收获了很多经验，为此面试前做了很多准备，感谢社群中大佬的帮助。

面试过程中大概记录和整理面试问的高频问题，包括高频很常见的算法面试题（或者说八股文），发上来给大家，希望能够对各位有所帮助～

同时感觉有一些特别的变化就是面试题特别的新，大模型相关的内容也会经常出现，祝大家收获心仪的offer！

【SVM原理】

SVM原理介绍
为什么激活函数用sigmoid?
为什么损失函数用交叉熵? (两个角度: 极大似然估计、KL散度)
交叉熵公式推导

【LR逻辑回归】

原理介绍
为什么激活函数用sigmoid?
为什么损失函数用交叉熵?

【模型的参数可不可以初始化为0?】

注意和“神经网络里隐层可不可以初始化为0”进行区分

【集成学习】

Bagging和boosting的区别(样本选择上、样例权重组、预测函数、并行计算、方差偏分解)
随机森林、GBDT、XGBoost、LightGBM等模型介绍和优缺点
GBDT如何做分类?

【决策树】

常见的树模型及其简介
各种生成和剪枝方法

【EM算法】

算法原理
收敛性：EM是局部最优还是全局最优？

【过拟合】

解决过拟合的方法（正则化、BatchNorm和LayerNorm、Dropout、增加训练数据、数据增强、标签平滑、引入先验知识、交叉验证、预训练等）
Dropout为什么可以解决过拟合？

【方差偏差分解】

解释什么是方差什么是偏差
为什么bagging降低方差（偏差不变），而boosting降低偏差？
公式推导

【归一化】

为什么要归一化
各种归一化的区别和优缺点
为什么 NLP 不用 BatchNorm？*出现频率极高

【正则化】

L1 和 L2 正则化怎么做
L1 和 L2 分别会有什么现象，代表什么先验分布

【初始化】

不同网络的初始化有什么区别？
神经网络隐层可以全部初始化为 0 吗？

【激活函数】

优缺点
sigmoid、tanh、relu、gelu

【损失函数】

二分类的损失函数
为什么分类不用 MSE？

【信息论】

信息熵、条件熵、联合熵、相对熵、互信息的概念
交叉熵和 KL 散度的区别

【样本不均衡】

(降/过采样，带权重的 loss)

【数据预处理】

(离散特征和连续特征)

【梯度消失和梯度爆炸】

梯度消失和梯度爆炸的原因
处理方法

【优化器】

原理、发展过程、公式、公式符号的意思
SGD、AdaGrad、RMSProp、AdaDelta、Adam、AdamW
从 SGM 到 Adam 做了哪些改进 (自适应的学习率、动量)
Adam 和 AdamW 有什么区别

【评价指标】

Acc、Precision、Recall、F1、ROC、AUC
AUC 为什么好，工业界为什么选择用 AUC
代码实现 AUC，需要写出工业界的实现方案

【BERT 和 Transformer】

简单介绍一下 BERT/Transformer
BERT 的两个训练任务是什么？(MLM 和 Next Sentence Prediction)
BERT 的优化器(AdamW)？和 Adam 的区别？
Attention 和 self-attention 有什么区别？
Self-attention 的公式、计算过程 *出现频率极高
多头的意义，多注意力会增加模型的计算时间吗
Transformer 的复杂度
对比 LSTM、CNN 和 Transformer，Transformer 的优点是什么(上下文感知、并行处理)
BERT 中如何解决 OOV(Out of Vocabulary)

【大模型】

讲一下GPT系列模型是如何演进的？
为什么现在的大模型大多是decoder-only的架构？
讲一下生成式语言模型的工作机理
哪些因素会导致LLM的偏见？
LLM中的因果语言建模与掩码语言建模有什么区别？
如何减轻LLM中的幻觉现象？
解释ChatGPT的零样本和少样本学习的概念
你了解大型语言模型中的哪些分词技术？
如何评估大语言模型（LLMs）的性能？
如何缓解LLMs复读机问题？
如何缓解LLMs重复读问题？

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了算法岗技术与面试交流群，想要获取最新面试题、了解最新面试动态的、需要源码&资料、提升技术的同学，可以直接加微信号：mlc2040。加的时候备注一下：研究方向 +学校/公司+CSDN，即可。然后就可以拉你进群了。

方式①、微信搜索公众号：机器学习社区，后台回复：加群
方式②、添加微信号：mlc2040，备注：技术交流

用通俗易懂方式讲解系列

大模型与自然语言处理

关注

17
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
算法工程师（NLP/搜索推荐/机器学习) 常考面试题总结

背景：女生，top985 CS 本硕，研究生的方向偏向于NLP/搜索推荐，2024届秋招拿了阿里、百度、联想等offer。面试过程中大概记录和整理面试问的高频问题，包括高频很常见的算法面试题（或者说八股文），发上来给大家，希望能够对各位有所帮助～同时感觉有一些特别的变化就是面试题特别的新，大模型相关的内容也会经常出现，祝大家收获心仪的offer！
复制链接

扫一扫