大家好,今天我总结了 100 道 NLP 高频面试题,分享给大家。
内容包含从 NLP 的基础模型到最热门的大模型,详情如下:
TF-IDF 和 机器学习
-
从零开始编写 TF-IDF。
-
什么是 TF-IDF 中的归一化?
-
为什么在现代需要了解 TF-IDF?如何在复杂模型中使用它?
-
解释朴素贝叶斯的工作原理。它可以用于什么?
-
支持向量机(SVM)为什么容易过拟合?
-
解释文本预处理的可能方法(词形还原和词干提取)。你知道哪些算法,在什么情况下使用它们?
-
你知道哪些文本相似性度量?
-
解释余弦相似度和余弦距离的区别。哪一个值可以为负?你会如何使用它们?
度量指标
-
用简单的词解释准确率和召回率,如果没有F1分数你会关注什么?
-
在什么情况下会观察到特异性变化?
-
什么时候看宏观,什么时候看微观指标?为什么会有加权指标?
-
什么是困惑度?我们可以用它来考虑什么?
-
什么是 BLEU 指标?
-
解释不同类型 ROUGE 指标的区别?
-
BLUE 和 ROUGE 有什么区别?
Word2Vec
-
解释 Word2Vec 的学习方式?损失函数是什么?什么被最大化?
-
你知道哪些获取嵌入的方法?什么时候各自更好?
-
静态嵌入和上下文嵌入有什么区别?
-
你知道哪两种主要的架构,哪种学习更快?
-
Glove、ELMO、FastText和Word2Vec有什么区别?
-
什么是负采样,为什么需要它?你还知道哪些Word2Vec的技巧,如何应用它们?
-
什么是稠密和稀疏嵌入?提供例子。
-
为什么嵌入的维度重要?
-
在短文本数据上训练 Word2Vec 时会出现什么问题,如何解决?
RNN & CNN
-
在一个简单的单层 RNN 中有多少训练参数?
-
RNN 训练是如何进行的?
-
RNN 中存在什么问题?
-
你知道哪些类型的RNN网络?解释 GRU 和 LSTM 的区别?
-
我们可以在这些网络中调整什么参数?(堆叠,层数)
-
RNN 中的梯度消失是什么?如何解决这个问题?
-
为什么在 NLP 中使用卷积神经网络(CNN),如何使用?如何在注意力范式中比较CNN?
注意力和 Transformer 架构
-
如何计算注意力?
-
注意力的复杂性?与RNN的复杂性比较。
-
比较RNN和注意力。在什么情况下使用注意力,什么时候使用RNN?
-
从零开始编写注意力。
-
解释注意力中的掩码。
-
自注意力矩阵的维度是多少?
-
BERT和GPT在注意力计算上有什么区别?
-
Transformer中的嵌入层维度是多少?
-
为什么嵌入被称为上下文的?它是如何工作的?
-
Transformer 中使用的是层归一化还是批归一化,为什么?
-
为什么 Transformer 有PreNorm和PostNorm?
-
解释软和硬(局部/全局)注意力的区别?
-
解释多头注意力。
-
你还知道哪些类型的注意力机制?这些修改的目的是什么?
-
随着头数的增加,自注意力如何变得更加复杂?
Transformer 模型类型
-
为什么BERT在很大程度上落后于RoBERTa,你可以从RoBERTa中学到什么?
-
T5和BART模型是什么?它们有何不同?
-
什么是任务无关模型?举例说明。
-
通过比较BERT、GPT和T5解释Transformer模型。
-
BERT、GPT等模型在知识获取方面存在什么主要问题?如何解决?
-
在训练和推理过程中,类似GPT的解码器是如何工作的?有何区别?
-
解释Transformer模型中的头和层的区别。
位置编码
-
为什么 Transformer 模型的嵌入中位置信息会丢失?
-
解释位置嵌入的方法及其优缺点。
-
为什么不能简单地用标记索引来添加嵌入?
-
为什么不训练位置嵌入?
-
什么是相对和绝对位置编码?
-
详细解释旋转位置嵌入的工作原理。
预训练
-
因果语言建模是如何工作的?
-
什么时候使用预训练模型?
-
如何从头开始训练一个Transformer?解释你的流程,在什么情况下会这么做?
-
除了BERT和GPT,你还知道哪些用于各种预训练任务的模型?
分词器
-
你知道哪些类型的分词器?比较它们。
-
你可以扩展一个分词器吗?如果可以,在什么情况下会这样做?什么时候重新训练分词器?添加新标记时需要做什么?
-
常规标记和特殊标记有什么区别?
-
为什么 Transformer 中不使用词形还原?为什么需要标记?
-
分词器是如何训练的?用 WordPiece 和 BPE 的例子解释。
-
CLS 向量的位置是什么?为什么?
-
BERT和GPT中分别使用了什么分词器?
-
现代分词器如何处理超出词汇量的单词?
-
分词器的词汇量大小会影响什么?在新训练的情况下如何选择?
训练
-
什么是类别不平衡?如何识别?列举所有解决这个问题的方法。
-
在推理过程中可以使用dropout吗,为什么?
-
Adam优化器和AdamW有什么区别?
-
随着梯度累积的变化,资源消耗如何变化?
-
如何优化训练期间的资源消耗?
-
你知道哪些分布式训练的方法?
-
什么是文本增强?列举你知道的所有方法。
-
为什么填充(padding)越来越少使用?用什么代替?
-
解释 warm-up 的工作原理。
-
解释梯度裁剪的概念?
-
teacher forcing 是如何工作的,举例说明?
-
为什么以及如何使用跳跃连接(skip connections)?
-
什么是适配器(adapters)?在哪些情况下可以使用?
-
解释度量学习的概念。你知道哪些方法?
推理
-
softmax 中的温度控制什么?你会设置什么值?
-
解释生成中的采样类型?top-k、top-p、核采样?
-
光束搜索的复杂性是什么?它是如何工作的?
-
什么是句子嵌入?有哪些获取方法?
大模型
-
LoRA 如何工作?你会如何选择参数?假设我们要微调一个大型语言模型,应用一个小R的LoRA,但模型仍然不适合内存。还能做什么?
-
前缀调整(prefix tuning)、p-tuning和提示调整(prompt tuning)有什么区别?
-
解释缩放定律(scaling law)。
-
解释 LLM 训练的所有阶段。哪些阶段可以省略,在什么情况下?
-
RAG 是如何工作的?与少样本 KNN 有什么区别?
-
你知道哪些量化方法?可以微调量化模型吗?
-
如何防止大型语言模型中的灾难性遗忘?
-
解释KV缓存、分组查询注意力(Grouped-Query Attention)和多查询注意力(MultiQuery Attention)的工作原理。
-
解释 MixTral 技术,其优缺点是什么?
-
Deepspeed 分布式训练是否了解,zero 0-3
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓