大模型LLM面试指南
文章平均质量分 88
AI生成曾小健
AI生成式技术,计算机博士;这个博客的主题主要是AI生成式技术、AI相关技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
如果需要看商科/金融相关的请移步CSDN: 量化交易曾小健(金融号)
展开
-
强化学习之遇到的面试问题总结
大致都是前段时间面试时候所遇到的一些面试问题,也算是强化学习的基础吧「毕竟手撕DQN A3C、推个TRPO不都成为基本操作了吗(扭头)」,整理了下放在这里,问题包括:「1.蒙特卡洛、TD、动态规划的关系」「2. DQN的几个改变」「3.深度强化学习中的DQN和A3C」「4.策略梯度的推导(存在的问题)」「5.策略梯度和actor-critic的对比」「6. A3C和DDPG」还有就是一些笔试时候问道的问题;其他顺带在开头吐槽一下:看到公式里面出现其实就是。原创 2024-04-25 22:35:57 · 810 阅读 · 0 评论 -
大模型面试之:阿里的Qwen模型和Baichuan、LLaMA有什么区别
Qwen使用了SwiGLU激活函数RMSNorm对Transformer的输入进行归一化Qwen使用了AdamW优化器总的来说,Qwen、Baichuan和LLaMA在激活函数、位置编码、优化器、注意力机制等关键架构设计上都存在一定差异,这些差异可能会影响到模型的性能表现。原创 2024-04-18 15:57:50 · 929 阅读 · 0 评论 -
大模型面试题-为什么transformer块使用LayerNorm而不是BatchNorm
这意味着,不仅自变量 X 的分布要相同,协变量的分布也应该相同。但是,如果训练数据和测试数据的协变量分布不同,就会出现协变量偏移。所以,协变量偏移强调的是除了主要自变量 X 以外的其他影响因素(即协变量)的分布变化。它提醒我们,在训练和应用机器学习模型时,不能只关注主要自变量,还需要考虑其他相关因素的分布是否一致。NLP任务中经常需要对单个样本做推理,而BatchNorm在推理阶段使用的是训练集的均值和方差,和单个样本的分布可能有偏差。的影响,但是除了 X 以外,还有其他变量也会影响 Y。原创 2024-04-04 21:12:28 · 613 阅读 · 0 评论 -
2017 年至今 Transformer 架构变化
(1)以语言模型(即仅解码器)LLaMa-2 为例,让我们看看 LLM 的主要架构改进:— Post LayerNorm → Pre LayerNorm (https://arxiv.org/abs/2002.04745)。有趣的是,尽管 NLP 领域已经经历了 5 年的高速增长,但 Vanilla Transformer 仍然坚持林迪效应,即事物越旧,未来存在的时间就越长。例如,一本已经出版了100年的书可能会再保持100年的畅销,而一本新出版的书可能没有这么长的未来。原创 MLOps社区。原创 2024-04-07 14:16:34 · 399 阅读 · 0 评论 -
百度大模型算法工程师面经
Transformer是一种由谷歌在2017年提出的深度学习模型,主要用于自然语言处理(NLP)任务,特别是序列到序列(Sequence-to-Sequence)的学习问题,如机器翻译、文本生成等。Transformer彻底改变了之前基于循环神经网络(RNNs)和长短期记忆网络(LSTMs)的序列建模范式,并且在性能上取得了显著提升。Transformer的核心创新点包括:自注意力机制(Self-Attention Mechanism)原创 2024-04-07 10:10:14 · 1078 阅读 · 0 评论 -
长文 | RL in NLP:强化学习在自然语言处理下的应用
刘聪NLP。最近再搞大模型对齐相关内容,今天给大家带来一篇《强化学习在自然语言处理下的应用》,来自知乎@许婧。通过本文,你将学习到强化学习简介、RLHF in NLP以及RLHF是必须的吗?强化学习简介:从相关RL理论出发,介绍RLHF中PPO的loss function各项意义RLHF in NLP:介绍instruct GPT训练流程,关注RLHF部分的开源代码/数据集构造指南/其他框架向优化(多粒度/多目标)RLHF是必须的吗?:介绍RLHF的“竞对”or“SL替身”算法。原创 2024-02-07 13:15:22 · 650 阅读 · 0 评论 -
大模型面试题 - 你知道为什么当前大模型/生成式语言模型大多都是decoder only的吗? transformer中的encoder和decoder有什么区别,请详细说明
你知道为什么当前大模型/生成式语言模型大多都是decoder only的吗?transformer中的encoder和decoder有什么区别,请详细说明Poe当前大模型和生成式语言模型大多采用decoder-only结构,主要有以下几个原因:生成任务的特点:语言模型的主要任务是根据前文生成下一个词或句子。这实际上是一个序列生成问题,而不是序列到序列的转换问题。Decoder天然适合处理这种自回归的生成任务。参数效率:如果使用encoder-decoder结构,需要。原创 2024-04-06 20:47:30 · 433 阅读 · 0 评论 -
斯坦福提出优于RLHF的对齐方法DPO
DPO 方法的相对对数比率 Log ( 好/不好),结合了一个动态的,针对每个样本的重要性权重,可防止朴素概率比率(naïve probability ratio ) 可能导致的模型褪化。也就是 DPO 其实是学到了人类偏好的范畴采样策略和变分推断方式,如何给定初始分布,如何变分推断等,所以少量偏好数据集,理想情况下却可以很好地泛化到其他任务。这个损失函数,是负对数似然损失:信息熵增,偏向无序,有序结构化降低,信息量减少,信息损失。损失函数的梯度,可以直观看到,其增加了"好的生成结果。客观题易,主观题难。原创 2024-02-07 12:45:00 · 767 阅读 · 0 评论 -
大模型算法面试 - 基础篇
基础知识1.transformer 八股文a.Self-Attention的表达式b.为什么上面那个公式要对QK进行scalingscaling后进行softmax操作可以使得输入的数据的分布变得更好,你可以想象下softmax的公式,数值会进入敏感区间,防止梯度消失,让模型能够更容易训练。c.self-attention一定要这样表达吗?不一定,只要可以建模相关性就可以。当然,最好是能够高速计算(矩阵乘法),并且表达能力强(query可以主动去关注到其他的key并在value上进行强化,并且忽略不相关的其原创 2024-01-14 03:17:52 · 1277 阅读 · 0 评论 -
大模型面试一日一问:介绍下QLoRA算法
原创 芝士AI吃鱼芝士AI吃鱼QLoRA(Quantized Low-Rank Adaptation)算法是一种针对大型预训练语言模型(如GPT-3、BERT等)的高效微调方法,旨在减少微调过程中的内存占用,同时保持或接近全精度微调的性能。QLoRA算法的核心原理是在保持预训练模型权重不变的情况下,通过引入低秩适配器(LoRA)和量化技术来适应特定任务。这种方法通过量化预训练模型的权重到4位精度,并在每个Transformer层中添加小型的可学习适配器。原创 2024-04-23 15:46:56 · 359 阅读 · 0 评论 -
24年大模型面试准备13 | 国产大模型的导师或内核——LLaMA v1和v2
因此。原创 2024-04-21 00:12:04 · 936 阅读 · 0 评论 -
LLM的前沿高效探索 - GraphRAG: 更好,更快,更便宜
通过拥抱效率至上的思维模式,您的人工智能团队可以领先一步,创造影响深远的应用程序,充分利用基础模型的威力。和知识图谱构建质量,提供潜在的成本和可伸缩性优势。的高效方法,并探索保证在生成过程中所使用的知识图谱信息的相关性和可靠性的策略。在这一集中,Pyte的首席执行官和联合创始人Sadegh Riazi讨论了安全的多方计算解决方案,以实现隐私保护的数据合作,分析和机器学习。随着这一领域的发展,我们可以预期在各种应用中看到更复杂和有效的知识图谱与 RAG 系统的整合,从而产生更准确、信息量更丰富和连贯的输出。原创 2024-04-20 18:10:16 · 949 阅读 · 0 评论 -
大模型常见面试题 - 常用微调方法LORA和Ptuning的原理
Stable Diffusion 总共包含三个主要的组件,其中每个组件都拥有一个独立的神经网络1)Clip Text 用于文本编码。输入:文本 输出:77 个 token 嵌入向量,其中每个向量包含 768 个维度2)UNet +Scheduler 在信息(潜)空间中逐步处理 / 扩散信息。输入:文本嵌入和一个由噪声组成的初始多维数组(结构化的数字列表,也叫张量 tensor)。输出:一个经过处理的信息阵列3)自编码解码器(Autoencoder Decoder),使用处理过的。原创 2024-04-16 23:22:53 · 797 阅读 · 0 评论 -
Baichuan2优化器,从SGD到Adam到AdamW
这样的方法在其他的优化器中或许有效,但会因为 Adam 中自适应学习率的存在而对使用 Adam 优化器的模型失效,具体分析可见fastai的这篇文章:AdamW and Super-convergence is now the fastest way to train neural nets。此外,为避免每次梯度更新时都独立计算梯度,导致梯度方向持续变化,Momentum 将上一轮梯度值加入到当前梯度的计算中,通过某种权重对两者加权求和,获得当前批次参数更新的更新值。但是mt��的计算有上面两种,都可以。原创 2023-09-24 23:01:42 · 149 阅读 · 0 评论 -
Bert论文参数量计算
Bert论文:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。了解到bert其实用的网络结构就是Transformer,因此,又去仔细看了下。对Bert和Transformer有了一个大概的理解。但是其中有个地方却困扰了我很久,就是Bert的Base model参数大小是110M,Large modle 是340M。原创 2023-09-18 21:38:50 · 123 阅读 · 0 评论 -
大模型面试高频问题整理
最近大模型相关的招聘非常多,大模型相关的面试也初步完善,小编整理了一些大模型面试常见问题,供大家参考。希望在找相关机会的同学能有好的收获。70% 985高校及海外硕博,30% 互联网精英及自主创业者,持续学习者的专属圈。layer normalization和batch normalization的区别?encoder的attention和decoder的attention的区别?为什么现在的大模型大多是decoder-only的架构?attention的复杂度?attention的优化?原创 2023-08-27 16:26:43 · 1749 阅读 · 0 评论