- 博客(64)
- 收藏
- 关注
原创 大模型面试题:数据污染的颠覆性影响
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-10 21:40:28
315
原创 大模型面试题:现有的大模型如何实现灵活填空生成文本呢
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-10 18:20:53
375
原创 大模型面试题:现有的大模型如何实现灵活填空生成文本呢
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-10 08:05:59
285
原创 大模型面试题:现有的大模型如何实现灵活填空生成文本呢
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-09 21:29:07
421
原创 现有的大模型如何实现灵活填空生成文本呢
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-09 09:14:44
793
原创 大模型面试题:大模型训练模式和推理模式的主要流程和区别是什么?
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-08 18:23:48
217
原创 大模型面试题:1B的模型和1T的数据大概要训练多久
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-08 15:28:47
381
原创 大模型面试题:大模型训练模式和推理模式的主要流程和区别是什么?
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-08 10:37:33
332
原创 大模型训练模式和推理模式的主要流程和区别是什么?
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-07 19:56:11
459
原创 大模型面试题:现有的大模型如何实现灵活填空生成文本呢
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-07 08:33:35
391
原创 大模型面试题:大模型的训练和推理中显存和计算量的情况
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-06 19:17:52
444
原创 大模型面试题:大模型训练模式和推理模式的主要流程和区别是什么?
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-06 16:03:39
395
原创 大模型面试题:混合精度训练的缺点是什么
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-06 09:49:47
768
原创 大模型面试题:在混合精度训练中如何选择合适的精度
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-05 21:01:07
328
原创 大模型面试题:pretrain和test阶段的scalinglaw的资源分配策略大模型面试题:pretrain和test阶段的scalinglaw的资源分配策略区别是啥区别是啥
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-05 17:47:09
502
原创 大模型面试题:RAG如何处理对抗性查询
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开好了,我们今天针对上面的问题,
2026-02-05 08:33:58
254
原创 大模型面试题:大模型真的有self-correct能力吗?
摘要:研究表明,大型语言模型在缺乏外部反馈时几乎不具备自我纠正能力。实验显示,监督微调(SFT)等方法仅能带来1.8%的改进,且主要减少将正确答案错误修改的情况。提出的SCoRe模型首次实现4.4%的正向自我纠正增益,将纠正错误率提升至14.5%,并将错误修改率降至1.4%。当前挑战包括:保留正确答案、纠正错误答案,以及确保训练时第一步答案的准确性。
2026-01-29 18:15:00
310
原创 大模型面试题:简要解释Pre-train、RL和Test Time三种 Scaling Law 的核心观点,在对应的阶段起到的作用
摘要:本文解析了预训练(Pre-train)、强化学习(RL)和推理测试(TestTime)三个阶段ScalingLaw的核心观点。预训练阶段强调计算量、数据规模和模型参数的幂律增长关系,需协调资源分配;RL阶段关注训练步数、奖励模型等要素的平衡,需防范过优化问题;测试阶段通过增加计算资源提升表现,但边际效益递减。三个阶段分别聚焦模型潜力挖掘、性能安全平衡和输出质量优化。(149字)
2026-01-28 17:15:34
32
原创 大模型面试题:1个token对于多少汉字或者英文
本文介绍了大语言模型中的Token概念及其应用。Token是语言模型处理文本的最小单位,不同模型对中英文的切分标准各异(如中文1Token≈1.5-2字,英文1Token≈0.75词)。文章详解了Token的构成、分词流程(BPE/WordPiece等算法)、输入输出机制及其在模型训练和推理中的核心作用(影响上下文理解、生成速度等)。同时提供了OpenAI、百度、阿里等平台的Token计算工具,并比较了BPE、子词级、字节级等主流切词技术的优劣,指出开发者需根据实际需求选择适合的Token计费方式。
2026-01-27 16:50:50
605
原创 大模型面试题:可以用Bert做生成式任务吗?
摘要:文章探讨了BERT模型在生成式任务中的应用可能性。虽然BERT主要用于自然语言理解任务,但通过掩码语言模型(MLM)机制,可以实现文本填充(如预测缺失词汇)和有限度的文本续写功能。不过由于BERT并非专为生成任务设计,其生成效果可能不如专用的大模型结构。文章还提供了具体的面试回答示例,说明如何用"我今天去了[掩码]"这样的例子来展示BERT的生成能力。
2026-01-25 19:15:00
680
原创 大模型面试题:解释下minimax中lighting attention的由来
本文介绍LightningAttention在minimax模型中的演进过程。传统SoftmaxAttention存在O(n²)复杂度问题,线性注意力通过激活函数替换和计算拆分实现O(nd²)复杂度。针对因果模型的单向注意力限制,LightningAttention-2创新性地采用分块策略:块内使用传统左乘+掩码保证单向性,块间通过缓存历史KV实现右乘优化。该方法首次实现因果模型的线性复杂度注意力,支持超长序列训练,通过分块策略和缓存机制平衡计算效率与模型性能。
2026-01-25 10:34:24
270
原创 大模型面试题:PPO算法到底是on-policy还是off-policy
PPO(Proximal Policy Optimization)是一种主要基于on-policy的强化学习算法,同时融合了部分off-policy特性。其核心设计要求使用当前策略收集的数据进行更新(on-policy特点),但通过重要性采样机制允许有限次数据重用(off-policy特性)。PPO采用裁剪或KL散度约束来限制策略更新幅度,确保新策略不会偏离原始数据分布太远。这种混合设计既保持了on-policy算法的稳定性,又提升了样本利用率,使其成为通用RL任务中的实用折中方案。与完全off-polic
2026-01-24 23:57:42
531
原创 大模型面试题:Bert做生成式任务的效果为何不如现有的大模型?
摘要:本文对比了BERT与现有大模型在生成式任务中的表现差异。主要原因包括:1)BERT基于encoder-only结构,而生成式模型多采用decoder-only结构;2)BERT采用掩码训练方式,不适合长文本生成;3)无法处理变长输入输出。具体表现为生成连贯性不足、生成长度受限(512token限制)以及缺乏明确的生成优化目标。相比之下,GPT等自回归模型在文本生成方面表现更优。(148字)
2026-01-24 18:45:00
673
原创 大模型面试题 有以下哪些方式可以在 prompt 中插入指令?
本文介绍了三种在prompt中插入指令的方法:1)正向模式(指令放末尾),适用于常规LLM从左到右生成;2)反向模式(填空式插入),允许指令出现在任意位置;3)定制提示,根据任务需求专门设计。这些方法适用于不同场景,如段落开头、中间或需要精确控制指令的任务。文章推荐访问CSDN博客或Gitee获取完整面试题资源。
2026-01-23 18:00:00
397
原创 大模型面试题:请问下离散KL散度的计算方式有哪些?
本文详细推导了三种KL散度估计器(k1,k2,k3)的构造过程。k1基于蒙特卡洛直接估计,无偏但高方差;k2利用二阶泰勒展开近似,低方差但有偏;k3通过控制变量法结合前两者的优点,实现了无偏且低方差的估计。推导过程涉及期望估计、泰勒展开和控制变量法等数学工具,清晰展示了各估计器的原理与特性。
2026-01-22 18:00:00
1550
原创 大模型算法面试题:PPO算法到底是on-policy还是off-policy
PPO算法本质上是on-policy方法,但通过重要性采样等技术部分借鉴了off-policy思想。它要求使用当前策略收集数据(on-policy特性),但允许对同一批数据进行多次梯度更新(off-policy特性),并通过裁剪或KL惩罚限制更新幅度。相比完全off-policy算法(如DQN、SAC),PPO不能随意使用历史数据,数据时效性要求更高。这种设计在保持on-policy稳定性的同时,提高了样本效率,使其成为强化学习中的实用折中方案。
2026-01-21 18:00:00
1331
原创 如何保证请解释下同一Prompt在LLM中多次计算得到一样的结果?
摘要:本文探讨了如何确保同一Prompt在LLM中多次计算得到一致结果的三种方法:1)静态Padding,通过统一prompt长度消除差异;2)分离推理,采用单条处理保证确定性;3)启用框架级确定性模式。每种方法在实现稳定性的同时存在效率或性能损失,建议根据场景需求选择组合方案,关键任务优先使用分离推理。(149字)
2026-01-20 08:00:00
1288
原创 手写一下正弦编码和旋转位置编码的代码?
本文提供了两种位置编码的核心代码实现:1. 正弦位置编码采用三角函数计算位置信息,通过奇偶位置交替使用sin/cos函数生成编码矩阵;2. 旋转位置编码(RoPE)在复数域进行旋转变换,包含预计算旋转矩阵和应用旋转两个主要步骤,其中涉及复数运算和维度变换。两种编码方式都用于在Transformer模型中注入位置信息,旋转位置编码因具有更好的长序列处理能力而被广泛应用。代码示例展示了核心计算逻辑,适合面试场景下的技术考察。
2026-01-19 18:15:00
104
原创 分析一下RLHF的替代算法的局限性
SLIC(《Sequence Likelihood Calibration》)在文本摘要任务中表现优异,但在Atari游戏(如Pong)中因无法处理帧间状态依赖,性能不及PPO。
2026-01-19 08:15:00
1118
原创 大模型中哪些模型用到的pre-norm和post-norm技术的?
本文分析了不同大模型中使用的pre-norm和post-norm技术。LLAMA和Qwen采用pre-norm结构,在自注意力层和前馈网络层前都进行层归一化;而BERT使用post-norm,在计算完自注意力和前馈网络后执行层归一化。代码示例展示了LLAMA和Qwen的pre-norm实现方式(先归一化再计算),以及BERT的post-norm实现(先计算后归一化)。这些归一化技术的选择直接影响模型的训练稳定性和性能表现。
2026-01-18 18:15:00
72
原创 大模型面试题:大模型推理中超出训练长度的外推方式有哪些?
摘要:本文总结了Transformer模型在推理时超出训练长度范围的外推方法,主要包括ALiBi、内插法、NTK-Aware和Yarn等四种主流技术。ALiBi通过添加不可学习的偏置实现外推,内插法通过缩放位置编码适应长文本,NTK-Aware采用动态调整的进制转换策略,而Yarn则结合了灵活进制设计和温度调节。这些方法各有特点,旨在解决模型在长序列推理时的性能下降问题。文章详细分析了每种方法的原理和实现,并提供了相关代码示例和参考文献,为研究者提供了实用的技术参考。
2026-01-18 08:29:51
625
原创 大模型面试题:有以下哪些方式可以在 prompt 中插入指令?
摘要:本文介绍了在prompt中插入指令的三种主要方式:1)正向模式,将指令置于prompt末尾,适合从左到右生成文本的任务;2)反向模式,利用填空能力将指令插入任意位置,适用于更灵活的场景;3)定制提示,根据具体任务需求设计个性化指令。这些方法适用于不同场景,如TruthfulQA等任务,可根据实际需求选择最合适的指令插入方式。(149字)
2026-01-16 15:46:54
343
原创 大模型面试题:PPO算法到底是on-policy还是off-policy
PPO算法本质上是on-policy方法,但通过重要性采样等技巧部分借鉴了off-policy思想。它要求使用当前策略生成的数据进行更新(on-policy特性),但允许有限次重用旧数据(off-policy特性),并通过裁剪或KL惩罚来约束更新幅度。与完全off-policy算法(如SAC、DQN)相比,PPO不能任意重用历史数据,而是需要在保持on-policy稳定性的前提下,有限提升数据效率。这种设计使PPO成为介于严格on-policy和完全off-policy之间的实用折中方案。
2026-01-16 08:00:00
474
原创 大模型面试题:推导一下softmax中为啥要除以根号d
本文探讨了Softmax函数中除以√d的数学原理。通过假设Q和K为独立随机矩阵,推导得出未缩放时注意力分数方差随维度d线性增长,导致Softmax输出趋近one-hot分布和梯度消失问题。理论分析表明,除以√d能使方差稳定为1,使Softmax输入分布更平滑,有利于梯度传播。该缩放因子对Transformer模型的稳定训练具有关键作用。
2026-01-15 18:01:12
66
原创 大模型面试题:MoE中如何缓解专家选择不均衡的问题?
本文探讨了混合专家模型(MoE)中专家选择不均衡问题的解决方案。主要提出三种方法:1)在门控网络后应用dropout技术,通过随机激活专家来增强模型泛化能力;2)引入软约束损失函数,通过变异系数(CV)衡量专家重要性分布,并加入总体损失进行优化;3)参考ST-MoE模型的路由器损失机制,通过惩罚较大logits来提升训练稳定性。这些方法通过不同角度确保专家负载均衡,同时保持模型性能,有效解决了MoE系统中专家选择不均衡的关键问题。
2026-01-10 11:34:24
337
原创 大模型面试题:离散KL散度计算方式有哪些?
本文介绍了三种KL散度估计器(k1、k2、k3)的推导过程。k1基于蒙特卡洛方法直接估计KL散度,具有无偏性但方差高;k2利用二阶近似降低方差但存在偏差;k3结合控制变量法,在保持无偏的同时降低方差。推导过程涉及泰勒展开、控制变量技术等数学原理,通过样本均值近似期望,最终形成三种各有特点的估计器,为KL散度估计提供了不同选择方案。
2026-01-09 08:00:00
260
原创 阿里一面:KL散度的计算近似计算方式有哪些
本文探讨了KL散度的样本近似方法,包括前向和反向KL散度。由于完整KL散度常无解析解且计算复杂,近似方法具有实用价值。文章详细推导了两种近似形式:前向KL近似通过添加期望值为0的项来降低方差,确保结果正定;反向KL近似采用类似方法,通过调整参数优化近似效果。这些近似方法在保持无偏性的同时,显著降低了计算复杂度,为实际应用提供了可行的解决方案。
2026-01-08 18:10:58
562
原创 面试题:大模型训练需要设置温度系数吗?
本文讨论了大模型训练中温度系数的设置问题。文章指出在训练阶段不需要设置温度系数(默认为1),而在推理阶段才需要调整温度系数来控制生成多样性。通过分析千问3的源码证实训练时确实不使用温度参数。同时解释了softmax函数的工作原理:模型输出原始logits分数,通过指数化和归一化转换为概率分布,其中指数化能保证正值并放大分数差异。文章建议参考相关面试题库获取更多技术细节。
2026-01-07 18:00:04
263
原创 大模型面试题: 为何大模型普遍训练1-2个epoch
大模型通常仅训练1-2个epoch,主要原因包括:1)海量训练数据(TB级)已足够学习有效模式;2)计算成本极高,多轮训练不经济;3)避免过拟合,优先保证泛化能力;4)随机采样和多任务训练增强数据多样性;5)早停机制防止无效训练。研究表明(如GPT-3、T5等),增加epoch数对性能提升有限,单轮训练大规模数据效果更优。这种策略使基础模型具备通用能力,后续可通过微调适配特定任务。
2026-01-07 08:00:00
716
原创 大模型面试题:手写一下正弦编码和旋转位置编码的代码?
我整理好的1000+面试题,请看或者最好将URL复制到浏览器中打开,不然可能无法直接打开。
2026-01-06 22:45:06
272
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅