自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 【大模型面试每日一题】Day 27:自注意力机制中Q/K/V矩阵的作用与缩放因子原理

自注意力机制中Q/K/V矩阵的作用与缩放因子原理

2025-05-24 19:00:00 662

原创 【大模型面试每日一题】Day 26:从伦理角度,大模型可能存在哪些潜在风险?技术上如何实现内容安全控制(如RLHF、红队测试)?

从伦理角度,大模型可能存在哪些潜在风险?技术上如何实现内容安全控制(如RLHF、红队测试)?

2025-05-22 18:30:00 1917

原创 【大模型面试每日一题】Day 25:如何通过模型压缩技术将千亿模型部署到边缘设备?

fill:#333;color:#333;color:#333;fill:none;模型压缩量化蒸馏结构优化内存约束精度保持计算效率INT8/FP16多阶段蒸馏轻量架构✅一句话总结:千亿模型压缩部署本质是精度-效率-硬件的三元博弈,需通过量化降低内存蒸馏保持精度结构优化适配硬件的协同策略,在边缘设备的内存、延迟、功耗约束下实现最优权衡。

2025-05-21 19:00:00 551

原创 【大模型面试每日一题】Day 24:假设训练资源有限,如何在模型参数量、训练数据量和训练时长三者间做权衡?

假设训练资源有限,如何在模型参数量、训练数据量和训练时长三者间做权衡?

2025-05-20 19:00:00 1270

原创 【大模型面试每日一题】Day 23:如何设计一个支持多模态(文本+图像)的大模型架构?

如何设计一个支持多模态(文本+图像)的大模型架构?

2025-05-19 19:00:00 1079

原创 【深度学习科普】大型语言模型微调技术:一文读懂SFT(有监督微调)和高效微调方法(LoRA,Adapter Tuning 以及 Prefix Tuning))!

介绍了大型语言模型的微调技术,重点探讨了有监督微调(SFT)和高效微调方法(PEFT)。有监督微调通过标注数据对预训练模型进行二次训练,使其适应特定任务,类似于医生通过专科培训获得特定领域的诊疗能力。SFT的步骤包括数据收集与预处理、模型选择与初始化、评估与优化。高效微调方法如LoRA、Adapter和Prefix Tuning则通过引入低秩矩阵、小型神经网络模块或可学习前缀向量,显著减少计算资源消耗,提升特定任务表现。这些方法在保持模型核心优势的同时,大幅节省了时间和资源,适用于多任务部署和特定任务优化。

2025-05-19 18:30:00 1255

原创 【大模型面试每日一题】Day 22:若训练中发现Loss突然剧烈波动(Spike),可能有哪些原因?如何定位和修复?

在模型训练过程中,损失函数(Loss)突然出现剧烈波动(Spike)可能由多种原因引起。常见原因包括数据批次异常(如极端值或标签错误)、学习率过高或调度器故障、梯度爆炸或消失、数值不稳定性(如除以极小值或log(0))、模型设计缺陷、优化器状态异常、分布式训练同步问题或代码逻辑错误。

2025-05-18 19:00:00 1031

原创 【大模型面试每日一题】Day 21:对比Chain-of-Thought(CoT)与Self-Consistency在复杂推理任务中的优劣

CoT通过单一路径生成推理链,具有低计算成本和强可解释性,但容易因单步错误导致最终错误。Self-Consistency则通过多路径生成和集成,提升了准确性,尤其在复杂任务中表现更优,但计算成本较高。CoT适用于简单任务和实时交互场景,而Self-Consistency更适合高价值决策任务。两者在推理机制、计算成本和适用场景上各有优劣,选择时需根据具体需求权衡效率与精度。

2025-05-17 19:00:00 807

原创 【大模型面试每日一题】Day 20:大模型出现“幻觉”(Hallucination)的可能原因有哪些?如何从数据或训练层面缓解?

大模型出现“幻觉”(Hallucination)的可能原因主要包括数据噪声、训练偏差和推理偏差。数据噪声可能导致错误知识注入,训练偏差如最大似然偏差可能导致模型过度泛化,而推理偏差如解码策略缺陷可能导致逻辑矛盾。

2025-05-16 19:00:00 826

原创 【大模型面试每日一题】Day 19:如何设计自动化评估框架验证大模型的多步推理能力(如数学解题)?

首先,通过动态生成和权威题库结合的方式构建题目,确保多样性和可控性。其次,将复杂任务拆解为可评估的原子单元,追踪逻辑链并评分中间步骤。然后,使用代码执行器和符号推理验证计算结果,确保准确性。最后,设计综合评分指标,如逻辑完整性、计算准确性和容错率,量化模型表现。通过这种闭环设计,能够将抽象逻辑转化为可量化的评估指标,实现推理能力的可解释性优化。

2025-05-15 19:00:00 872

原创 【大模型面试每日一题】Day 18:大模型中KV Cache的作用是什么?如何通过Window Attention优化其内存占用?

在大型语言模型中,KV Cache(Key-Value缓存)的主要作用是存储历史token的Key和Value向量,以加速自回归生成过程,避免重复计算。然而,随着序列长度的增加,KV Cache的显存占用也会线性增长,成为显存瓶颈。为了优化内存占用,Window Attention(窗口注意力)机制被引入,它通过滑动窗口的方式限制每个token的注意力范围,仅关注局部窗口内的历史信息,从而显著减少显存占用。

2025-05-14 19:00:00 936

原创 【大模型面试每日一题】Day 17:解释MoE(Mixture of Experts)架构如何实现模型稀疏性,并分析其训练难点

MoE(Mixture of Experts)架构通过动态专家选择实现模型稀疏性,具体机制包括Top-k门控、参数隔离和动态路由。

2025-05-13 19:00:00 1459

原创 【大模型面试每日一题】Day 16:为什么SwiGLU激活函数在LLaMA等模型中取代ReLU?从梯度和稀疏性角度分析

【大模型面试每日一题】Day 16:为什么SwiGLU激活函数在LLaMA等模型中取代ReLU?从梯度和稀疏性角度分析

2025-05-12 18:45:00 1560

原创 【大模型面试每日一题】Day 15:流水线并行的Bubble问题及其缓解方法

【大模型面试每日一题】Day 15:流水线并行的Bubble问题及其缓解方法

2025-05-11 18:00:00 1059

原创 【大模型面试每日一题】Day 14:大模型训练中显存占用的主要来源有哪些?如何通过激活重计算降低显存?

【大模型面试每日一题】Day 14:大模型训练中显存占用的主要来源有哪些?如何通过激活重计算降低显存?

2025-05-10 18:30:00 1243

原创 【大模型面试每日一题】Day 13:数据并行与模型并行的区别是什么?ZeRO优化器如何结合二者?

【大模型面试每日一题】Day 13:数据并行与模型并行的区别是什么?ZeRO优化器如何结合二者?

2025-05-09 19:00:00 1054

原创 【论文解读】| ACL2024 | LANDeRMT:基于语言感知神经元路由的大模型机器翻译微调框架

创新维度具体贡献方法论提出首个基于神经元分析的LLM选择性微调框架技术突破1. 激活差异检测关键层2. 泰勒展开量化神经元重要性3. 动态路由机制。

2025-05-09 19:00:00 1497

原创 【大模型面试每日一题】Day 12:梯度裁剪(Gradient Clipping)的作用是什么?在Transformer中哪些场景下尤为重要?

【大模型面试每日一题】Day 12:梯度裁剪(Gradient Clipping)的作用是什么?在Transformer中哪些场景下尤为重要?

2025-05-08 19:00:00 1370

原创 【大模型面试每日一题】Day 11:参数高效微调方法(如LoRA、Adapter)的核心思想是什么?相比全参数微调有何优缺点?

【大模型面试每日一题】Day 11:参数高效微调方法(如LoRA、Adapter)的核心思想是什么?相比全参数微调有何优缺点?

2025-05-07 20:00:00 1079

原创 【大模型面试每日一题】Day 10:混合精度训练如何加速大模型训练?可能出现什么问题?如何解决?

Day 10:混合精度训练如何加速大模型训练?可能出现什么问题?如何解决?

2025-05-06 18:29:51 1321

原创 【大模型面试每日一题】Day 9:BERT 的 MLM 和 GPT 的 Next Token Prediction 有什么区别?

【大模型面试每日一题】Day 9:BERT 的 MLM 和 GPT 的 Next Token Prediction 有什么区别?

2025-05-05 19:00:00 1142

原创 【大模型面试每日一题】Day 8:为什么大模型普遍使用 LayerNorm 而非 BatchNorm?二者的核心区别是什么?

【大模型面试每日一题】Day 8:为什么大模型普遍使用 LayerNorm 而非 BatchNorm?二者的核心区别是什么?

2025-05-04 14:30:00 941

原创 【大模型面试每日一题】Day 7:为什么大模型训练选择 Adam 而非 SGD?Adam 的关键改进是什么?

【大模型面试每日一题】Day 7:为什么大模型训练选择 Adam 而非 SGD?Adam 的关键改进是什么?

2025-05-03 19:00:00 1019

原创 【大模型面试每日一题】Day 6:分布式训练中 loss 出现 NaN,可能原因及排查方法?

✅一句话总结:Loss 出现 NaN 是训练过程中常见但棘手的问题,需从梯度、参数、数据、算子、分布式等多个角度系统性排查。建议在训练初期就集成自动检测机制,结合日志、可视化和人工验证手段构建完整的防护体系。

2025-05-02 19:00:00 975

原创 【大模型面试每日一题】Day 5:GQA vs MHA效率对比

面试官:最近一些研究(如LLaMA、Mixtral)采用Grouped-Query Attention(GQA)代替传统的Multi-Head Attention,请解释GQA的设计动机和优势?

2025-05-01 19:00:00 1526

原创 【大模型面试每日一题】Day 4:低资源语言建模方案

核心挑战数据稀缺语言复杂性计算资源限制。

2025-04-30 19:00:00 1062

原创 面试回答之STAR结构

•STAR发展历程:• 1970年代:由工业心理学家开发,最初用于评估员工胜任力• 1990年代:被麦肯锡等咨询公司引入案例面试• 2010年后:成为科技公司(如Google、Amazon)技术面试的标准应答结构。

2025-04-29 22:20:39 1584

原创 【大模型面试每日一题】Day 3:大模型显存优化三大术

面试官:训练10B级模型时显存不足,你会采用哪些优化技术?(考察概率:85%)

2025-04-29 19:00:00 820

原创 【大模型面试每日一题】Day 2:长序列改进Self-Attention

面试官:当序列长度超过10万时,你会如何改进Self-Attention?

2025-04-28 01:01:46 803

原创 【大模型面试每日一题】Day 1:Self-Attention的并行计算优势

请解释Transformer中Self-Attention的计算过程,并说明为什么它在处理长序列时优于RNN?(考察概率:90%)

2025-04-27 20:52:41 1156

原创 论文解读 | 超越Top-1:Transformer按序确定顶级词元

为深入研究Transformer在顶级预测固定后的行为,团队拓展了饱和层的定义。1st饱和层定义为模型的top-1预测在后续层保持不变时的层(Geva等人,2022)。形式上,对于一个有N层的模型,若在层L1之后的所有层L1'((L'<N))中,模型的top-1预测token不变,则在层L1发生饱和事件。例如,在图2中,“toy”这个词元的1st饱和层是44层,因为从44层之后其top-1预测始终是“toy”。在此基础上,研究团队定义了k-th饱和层,即第k个顶级词元在后续层保持固定的层。

2025-04-25 19:00:00 608

原创 论文解读 | EMNLP 2024 | 大语言模型中的知识机制:综述与展望

知识是人类对客观世界认识的结晶,它涵盖了对事实的认知、对事物的理解以及通过经验积累所获得的信息。在大语言模型(LLMs)的语境下,知识的定义与传统认知有所关联,但也具有其独特性。若LLMs能针对某一知识相关问题给出正确答案,那么我们就认为该模型掌握了这一知识。例如,当被问及“2024年美国总统是谁”,如果模型能够准确回答“拜登”,则表明它对这一知识有所掌握。这里的知识记录形式多样,既可以是文本形式,也能通过问答对、音频、视频或图像等方式来呈现。

2025-04-24 21:14:51 1160

原创 论文解读 | ICLR 2025 满分论文!ICCV 2023 最佳论文奖得主新作!利用一致光传输提升图像照明编辑效果

在过去十年里,基于学习的方法在图像重光照领域的地位日益重要,逐渐成为关键的基线。有研究利用深度神经网络从光场数据中学习先验知识;也有研究在神经网络训练时引入物理先验,以此增强网络的重光照能力;还有研究借助高动态范围(HDR)照明地图,通过显式优化 Phong 模型先验来训练重光照模型。此外,诸多研究聚焦于提升光照建模的效率、性能和合理性,提出了各类基线方法。研究方向具体内容基于神经网络的图像光照编辑利用神经网络从光场数据学习先验知识,或结合物理先验、HDR照明图等训练重光照模型。

2025-04-23 19:00:00 776

原创 论文解读 | ACL 2023 | 多语言模型跨语言迁移影响因素研究综述

语言相似性与跨语言迁移性能之间的关系一直是研究的重点,主要通过两种方式进行量化研究:一种是通过合成修改自然语言的特定语言特征,控制修改幅度来观察其对迁移性能的影响;另一种则是使用语言相似性度量指标来捕捉两种自然语言之间的相似程度。常用的度量指标包括世界语言结构地图(WALS)、lang2vec和eLinguistics。在众多研究中,句法(以词序为代表)对跨语言迁移的影响被广泛探讨。

2025-04-23 18:30:00 1033

原创 论文解读 | ICLR 2024 | ALMA模型:基于LLama进行特定微调的翻译任务大语言模型

在自然语言处理(NLP)领域,大型语言模型(LLMs)发展迅猛,在诸多任务中成绩斐然,但在翻译任务上却表现欠佳,本次分享的论文《A Paradigm Shift in Machine Translation: Boosting Translation Performance of Large Language Models》针对这一问题展开研究,提出了全新的训练方法,大幅提升了LLMs的翻译性能,为机器翻译领域带来新的突破。

2025-04-22 18:41:57 746

原创 论文解读 | EMNLP 2024 | 神经元特化:利用内在任务模块化实现多语言机器翻译

本文深入研究多语言网络内在任务特定模块化,识别并利用该结构减轻多语言翻译干扰。发现FFN神经元以语言特定方式激活,其结构重叠反映语言相近性,且重叠模式在模型不同层有规律变化。基于此提出神经元特化方法,通过识别特定任务神经元,对FFN层模块化处理,稀疏网络持续更新,增强任务特异性,提高知识转移效率。在不同资源水平实验中,该方法始终优于强大基线系统,提升翻译质量,证明在减少高资源语言干扰和增强低资源语言知识转移方面有效。

2025-04-18 19:00:00 796

原创 论文解读 | COLING 2025 BEST LONG PAPER | 通过检测与探究任务特定神经元理解大语言模型的多任务泛化能力

这篇论文发表于 2025 年计算语言学国际会议(COLING 2025 )且最后荣获 COLING 2025 最佳长论文奖。论文聚焦大语言模型(LLMs)多任务学习机制,从神经元层面展开研究,为理解 LLMs 多任务学习及优化提供了新视角与方法 。

2025-04-17 20:54:15 913

原创 论文解读 | DeepSeek vs. o3-mini:推理型大语言模型在机器翻译和文本摘要评估中的表现

在SummEval和Eval4NLP数据集上进行的文本摘要评估结果显示(如下表所示):模型名称推理SummEval(平均)Eval4NLP是0.3510.583否0.3990.630是0.3150.556否0.3750.624是0.3550.564否0.3930.619是0.1740.368否0.2280.488是0.3370.644是0.3350.645否0.3460.634。

2025-04-17 20:31:00 761 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除