- 博客(44)
- 收藏
- 关注
原创 【大模型面试每日一题】Day 33:深度解析GPT-3与PaLM的规模扩展差异及影响
【大模型面试每日一题】Day 33:深度解析GPT-3与PaLM的规模扩展差异及影响
2025-05-31 15:30:00
1308
原创 【大模型面试每日一题】Day 32:位置编码的改进方向与Rotary Position Embedding的核心优势
【大模型面试每日一题】Day 32:位置编码的改进方向与Rotary Position Embedding的核心优势
2025-05-30 18:30:00
1189
原创 【大模型面试每日一题】Day 31:LoRA微调方法中低秩矩阵的秩r如何选取?
【大模型面试每日一题】Day 31:LoRA微调方法中低秩矩阵的秩r如何选取?
2025-05-29 19:17:34
1370
原创 【大模型面试每日一题】Day 30:解释一下 FlashAttention 技术,并对比其与传统注意力在显存效率和计算性能上的差异。
解释一下 FlashAttention 技术,并对比其与传统注意力在显存效率和计算性能上的差异。
2025-05-27 19:00:00
1777
原创 【大模型面试每日一题】Day 26:从伦理角度,大模型可能存在哪些潜在风险?技术上如何实现内容安全控制(如RLHF、红队测试)?
从伦理角度,大模型可能存在哪些潜在风险?技术上如何实现内容安全控制(如RLHF、红队测试)?
2025-05-22 18:30:00
2783
原创 【大模型面试每日一题】Day 25:如何通过模型压缩技术将千亿模型部署到边缘设备?
fill:#333;color:#333;color:#333;fill:none;模型压缩量化蒸馏结构优化内存约束精度保持计算效率INT8/FP16多阶段蒸馏轻量架构✅一句话总结:千亿模型压缩部署本质是精度-效率-硬件的三元博弈,需通过量化降低内存蒸馏保持精度结构优化适配硬件的协同策略,在边缘设备的内存、延迟、功耗约束下实现最优权衡。
2025-05-21 19:00:00
676
原创 【大模型面试每日一题】Day 24:假设训练资源有限,如何在模型参数量、训练数据量和训练时长三者间做权衡?
假设训练资源有限,如何在模型参数量、训练数据量和训练时长三者间做权衡?
2025-05-20 19:00:00
1450
原创 【深度学习科普】大型语言模型微调技术:一文读懂SFT(有监督微调)和高效微调方法(LoRA,Adapter Tuning 以及 Prefix Tuning))!
介绍了大型语言模型的微调技术,重点探讨了有监督微调(SFT)和高效微调方法(PEFT)。有监督微调通过标注数据对预训练模型进行二次训练,使其适应特定任务,类似于医生通过专科培训获得特定领域的诊疗能力。SFT的步骤包括数据收集与预处理、模型选择与初始化、评估与优化。高效微调方法如LoRA、Adapter和Prefix Tuning则通过引入低秩矩阵、小型神经网络模块或可学习前缀向量,显著减少计算资源消耗,提升特定任务表现。这些方法在保持模型核心优势的同时,大幅节省了时间和资源,适用于多任务部署和特定任务优化。
2025-05-19 18:30:00
1925
原创 【大模型面试每日一题】Day 22:若训练中发现Loss突然剧烈波动(Spike),可能有哪些原因?如何定位和修复?
在模型训练过程中,损失函数(Loss)突然出现剧烈波动(Spike)可能由多种原因引起。常见原因包括数据批次异常(如极端值或标签错误)、学习率过高或调度器故障、梯度爆炸或消失、数值不稳定性(如除以极小值或log(0))、模型设计缺陷、优化器状态异常、分布式训练同步问题或代码逻辑错误。
2025-05-18 19:00:00
1792
原创 【大模型面试每日一题】Day 21:对比Chain-of-Thought(CoT)与Self-Consistency在复杂推理任务中的优劣
CoT通过单一路径生成推理链,具有低计算成本和强可解释性,但容易因单步错误导致最终错误。Self-Consistency则通过多路径生成和集成,提升了准确性,尤其在复杂任务中表现更优,但计算成本较高。CoT适用于简单任务和实时交互场景,而Self-Consistency更适合高价值决策任务。两者在推理机制、计算成本和适用场景上各有优劣,选择时需根据具体需求权衡效率与精度。
2025-05-17 19:00:00
963
原创 【大模型面试每日一题】Day 20:大模型出现“幻觉”(Hallucination)的可能原因有哪些?如何从数据或训练层面缓解?
大模型出现“幻觉”(Hallucination)的可能原因主要包括数据噪声、训练偏差和推理偏差。数据噪声可能导致错误知识注入,训练偏差如最大似然偏差可能导致模型过度泛化,而推理偏差如解码策略缺陷可能导致逻辑矛盾。
2025-05-16 19:00:00
964
原创 【大模型面试每日一题】Day 19:如何设计自动化评估框架验证大模型的多步推理能力(如数学解题)?
首先,通过动态生成和权威题库结合的方式构建题目,确保多样性和可控性。其次,将复杂任务拆解为可评估的原子单元,追踪逻辑链并评分中间步骤。然后,使用代码执行器和符号推理验证计算结果,确保准确性。最后,设计综合评分指标,如逻辑完整性、计算准确性和容错率,量化模型表现。通过这种闭环设计,能够将抽象逻辑转化为可量化的评估指标,实现推理能力的可解释性优化。
2025-05-15 19:00:00
977
原创 【大模型面试每日一题】Day 18:大模型中KV Cache的作用是什么?如何通过Window Attention优化其内存占用?
在大型语言模型中,KV Cache(Key-Value缓存)的主要作用是存储历史token的Key和Value向量,以加速自回归生成过程,避免重复计算。然而,随着序列长度的增加,KV Cache的显存占用也会线性增长,成为显存瓶颈。为了优化内存占用,Window Attention(窗口注意力)机制被引入,它通过滑动窗口的方式限制每个token的注意力范围,仅关注局部窗口内的历史信息,从而显著减少显存占用。
2025-05-14 19:00:00
1109
原创 【大模型面试每日一题】Day 17:解释MoE(Mixture of Experts)架构如何实现模型稀疏性,并分析其训练难点
MoE(Mixture of Experts)架构通过动态专家选择实现模型稀疏性,具体机制包括Top-k门控、参数隔离和动态路由。
2025-05-13 19:00:00
1880
原创 【大模型面试每日一题】Day 16:为什么SwiGLU激活函数在LLaMA等模型中取代ReLU?从梯度和稀疏性角度分析
【大模型面试每日一题】Day 16:为什么SwiGLU激活函数在LLaMA等模型中取代ReLU?从梯度和稀疏性角度分析
2025-05-12 18:45:00
2747
原创 【大模型面试每日一题】Day 15:流水线并行的Bubble问题及其缓解方法
【大模型面试每日一题】Day 15:流水线并行的Bubble问题及其缓解方法
2025-05-11 18:00:00
1539
原创 【大模型面试每日一题】Day 14:大模型训练中显存占用的主要来源有哪些?如何通过激活重计算降低显存?
【大模型面试每日一题】Day 14:大模型训练中显存占用的主要来源有哪些?如何通过激活重计算降低显存?
2025-05-10 18:30:00
1440
原创 【大模型面试每日一题】Day 13:数据并行与模型并行的区别是什么?ZeRO优化器如何结合二者?
【大模型面试每日一题】Day 13:数据并行与模型并行的区别是什么?ZeRO优化器如何结合二者?
2025-05-09 19:00:00
1173
原创 【论文解读】| ACL2024 | LANDeRMT:基于语言感知神经元路由的大模型机器翻译微调框架
创新维度具体贡献方法论提出首个基于神经元分析的LLM选择性微调框架技术突破1. 激活差异检测关键层2. 泰勒展开量化神经元重要性3. 动态路由机制。
2025-05-09 19:00:00
1662
原创 【大模型面试每日一题】Day 12:梯度裁剪(Gradient Clipping)的作用是什么?在Transformer中哪些场景下尤为重要?
【大模型面试每日一题】Day 12:梯度裁剪(Gradient Clipping)的作用是什么?在Transformer中哪些场景下尤为重要?
2025-05-08 19:00:00
1581
原创 【大模型面试每日一题】Day 11:参数高效微调方法(如LoRA、Adapter)的核心思想是什么?相比全参数微调有何优缺点?
【大模型面试每日一题】Day 11:参数高效微调方法(如LoRA、Adapter)的核心思想是什么?相比全参数微调有何优缺点?
2025-05-07 20:00:00
1283
原创 【大模型面试每日一题】Day 10:混合精度训练如何加速大模型训练?可能出现什么问题?如何解决?
Day 10:混合精度训练如何加速大模型训练?可能出现什么问题?如何解决?
2025-05-06 18:29:51
1421
原创 【大模型面试每日一题】Day 9:BERT 的 MLM 和 GPT 的 Next Token Prediction 有什么区别?
【大模型面试每日一题】Day 9:BERT 的 MLM 和 GPT 的 Next Token Prediction 有什么区别?
2025-05-05 19:00:00
1312
原创 【大模型面试每日一题】Day 8:为什么大模型普遍使用 LayerNorm 而非 BatchNorm?二者的核心区别是什么?
【大模型面试每日一题】Day 8:为什么大模型普遍使用 LayerNorm 而非 BatchNorm?二者的核心区别是什么?
2025-05-04 14:30:00
1202
原创 【大模型面试每日一题】Day 7:为什么大模型训练选择 Adam 而非 SGD?Adam 的关键改进是什么?
【大模型面试每日一题】Day 7:为什么大模型训练选择 Adam 而非 SGD?Adam 的关键改进是什么?
2025-05-03 19:00:00
1216
原创 【大模型面试每日一题】Day 6:分布式训练中 loss 出现 NaN,可能原因及排查方法?
✅一句话总结:Loss 出现 NaN 是训练过程中常见但棘手的问题,需从梯度、参数、数据、算子、分布式等多个角度系统性排查。建议在训练初期就集成自动检测机制,结合日志、可视化和人工验证手段构建完整的防护体系。
2025-05-02 19:00:00
1462
原创 【大模型面试每日一题】Day 5:GQA vs MHA效率对比
面试官:最近一些研究(如LLaMA、Mixtral)采用Grouped-Query Attention(GQA)代替传统的Multi-Head Attention,请解释GQA的设计动机和优势?
2025-05-01 19:00:00
1830
原创 面试回答之STAR结构
•STAR发展历程:• 1970年代:由工业心理学家开发,最初用于评估员工胜任力• 1990年代:被麦肯锡等咨询公司引入案例面试• 2010年后:成为科技公司(如Google、Amazon)技术面试的标准应答结构。
2025-04-29 22:20:39
3111
原创 【大模型面试每日一题】Day 2:长序列改进Self-Attention
面试官:当序列长度超过10万时,你会如何改进Self-Attention?
2025-04-28 01:01:46
896
原创 【大模型面试每日一题】Day 1:Self-Attention的并行计算优势
请解释Transformer中Self-Attention的计算过程,并说明为什么它在处理长序列时优于RNN?(考察概率:90%)
2025-04-27 20:52:41
1280
原创 论文解读 | 超越Top-1:Transformer按序确定顶级词元
为深入研究Transformer在顶级预测固定后的行为,团队拓展了饱和层的定义。1st饱和层定义为模型的top-1预测在后续层保持不变时的层(Geva等人,2022)。形式上,对于一个有N层的模型,若在层L1之后的所有层L1'((L'<N))中,模型的top-1预测token不变,则在层L1发生饱和事件。例如,在图2中,“toy”这个词元的1st饱和层是44层,因为从44层之后其top-1预测始终是“toy”。在此基础上,研究团队定义了k-th饱和层,即第k个顶级词元在后续层保持固定的层。
2025-04-25 19:00:00
709
原创 论文解读 | EMNLP 2024 | 大语言模型中的知识机制:综述与展望
知识是人类对客观世界认识的结晶,它涵盖了对事实的认知、对事物的理解以及通过经验积累所获得的信息。在大语言模型(LLMs)的语境下,知识的定义与传统认知有所关联,但也具有其独特性。若LLMs能针对某一知识相关问题给出正确答案,那么我们就认为该模型掌握了这一知识。例如,当被问及“2024年美国总统是谁”,如果模型能够准确回答“拜登”,则表明它对这一知识有所掌握。这里的知识记录形式多样,既可以是文本形式,也能通过问答对、音频、视频或图像等方式来呈现。
2025-04-24 21:14:51
1471
原创 论文解读 | ICLR 2025 满分论文!ICCV 2023 最佳论文奖得主新作!利用一致光传输提升图像照明编辑效果
在过去十年里,基于学习的方法在图像重光照领域的地位日益重要,逐渐成为关键的基线。有研究利用深度神经网络从光场数据中学习先验知识;也有研究在神经网络训练时引入物理先验,以此增强网络的重光照能力;还有研究借助高动态范围(HDR)照明地图,通过显式优化 Phong 模型先验来训练重光照模型。此外,诸多研究聚焦于提升光照建模的效率、性能和合理性,提出了各类基线方法。研究方向具体内容基于神经网络的图像光照编辑利用神经网络从光场数据学习先验知识,或结合物理先验、HDR照明图等训练重光照模型。
2025-04-23 19:00:00
1271
原创 论文解读 | ACL 2023 | 多语言模型跨语言迁移影响因素研究综述
语言相似性与跨语言迁移性能之间的关系一直是研究的重点,主要通过两种方式进行量化研究:一种是通过合成修改自然语言的特定语言特征,控制修改幅度来观察其对迁移性能的影响;另一种则是使用语言相似性度量指标来捕捉两种自然语言之间的相似程度。常用的度量指标包括世界语言结构地图(WALS)、lang2vec和eLinguistics。在众多研究中,句法(以词序为代表)对跨语言迁移的影响被广泛探讨。
2025-04-23 18:30:00
1259
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅