*JOKER-CSDN博客

原创多模态大模型（VLM）分享&ALBEF

ALBEF是一种先进的多模态学习模型，通过图像-文本对比学习实现模态对齐。其核心创新包括：1) 采用不对称编码结构，图像编码器(ViT)比文本编码器(BERT)更深；2) 引入动量模型增强特征对比学习；3) 设计多模态融合模块，通过跨模态注意力机制实现深度交互；4) 提出动量蒸馏技术，利用KL散度减少噪声数据影响。该模型通过图像-文本对比(ITC)、匹配(ITM)和掩码语言建模(MLM)三个任务联合训练，在检索、问答等任务上表现优异。特别地，动量蒸馏和难负例采样策略有效提升了模型对细节特征的学习能力。

2026-04-23 15:32:47 294

原创多模态大模型（VLM）技术&CLIP&MOCO

本文探讨了CLIP和MoCo两种突破性模型。CLIP通过图文配对训练实现了无需标注数据的多模态学习，利用prompt技术摆脱了传统分类模型的固定类别限制，开创性地将文本与图像特征映射到共享向量空间。MoCo作为对比学习算法，通过动量编码器和负样本队列解决了无监督学习中样本一致性问题，采用指数移动平均更新策略稳定训练过程。两者共同特点是：1）减少人工标注依赖；2）通过自监督学习提取高质量特征表示；3）创新性地处理了模型训练中的动态变化挑战。CLIP侧重多模态语义理解，MoCo专注单模态特征学习，但都通过巧妙设

2026-04-23 15:30:31 385

原创数据蒸馏&Scaling Law&提高RAG准确率&大模型训练流程&显存估算

本文摘要：文章系统介绍了AI领域的多项关键技术。数据蒸馏部分阐述了三种核心方法（性能匹配、参数匹配、分布匹配），其中参数匹配效果最佳。Scaling Law部分解析了预训练、后训练和推理三个阶段的资源优化法则。RAG准确率提升提出了三种改进方法：智能分词、语义校验和混合检索。大模型训练流程详细说明了数据清洗、预训练、指令微调和偏好对齐四个关键步骤。显存估算部分则从推理和训练两个维度，以7B模型为例计算了显存需求，推理约需18GB，训练约需152GB，并介绍了梯度检查点优化技术。

2026-03-30 15:36:55 339

原创大模型分布式训练技术 DP，DDP，DeepSpeed ZeRO

本文系统介绍了深度学习模型分布式训练的技术演进。首先分析了数据并行(DP)模式，指出其单进程多线程的局限性导致GPU0通信压力过大。然后详细讲解了DDP框架采用的ring all-reduce通信机制，通过环形连接实现负载均衡，使每个GPU的通信量恒定为2φ。进一步介绍了DeepSpeed的ZeRO优化方案：ZeRO-1通过划分优化器状态将显存占用降低至31.4GB；ZeRO-2增加梯度划分，显存降至16.6GB；ZeRO-3进一步划分参数，显存可降至1.9GB，但通信量增至3φ。文章特别指出ZeRO-2在

2026-03-26 15:41:56 541

原创混合精度训练AMP&master-sweight&Loss Scaling

混合精度训练通过结合FP16和FP32数据格式，在保持模型精度的同时显著提升训练速度并减少显存占用。FP16计算速度更快且显存占用减半，但存在数值溢出和大数吃小数问题。混合精度采用主权重（FP32）保存参数，在FP16下进行前向和反向传播，通过梯度缩放和关键操作（如损失计算）保持FP32精度来解决这些问题。该技术已成为大模型训练的标准配置，在PyTorch等框架中已实现自动混合精度支持。

2026-03-26 15:07:01 362

原创 Adam&AdamW&指数加权平均&SGD&Momentum&RMSProp

本文系统介绍了Adam和AdamW优化器的原理与实现。首先通过商店收入预测案例引入指数加权平均概念，解释其计算过程和修正方法。随后分析传统梯度下降的震荡问题，引出动量梯度下降和RMSprop两种改进算法。在此基础上详细阐述了Adam算法的实现机制，即结合动量与RMSprop思想，并对指数加权平均值进行修正。最后重点说明AdamW与Adam的关键区别在于权重衰减的处理方式：AdamW直接在参数更新时应用权重衰减，而非像L2正则那样修改损失函数。文章还指出这些优化器需要额外保存两个状态变量，导致显存占用约为参数

2026-03-25 22:23:04 622

原创 Flow Matching直观理解&原理

本文介绍了flow matching的基本原理和实现方法。该方法通过神经网络学习一个向量场，该网络输入时间和位置信息，输出速度向量用于调整多维数据。关键问题是如何获取训练标签（速度向量），解决方案是构建一个概率流模型：初始为标准正态分布，随时间逐渐汇聚到目标点Z。通过定义条件概率路径和边缘概率路径，推导出条件向量场的计算公式。训练时，从标准正态分布采样噪声ε，结合目标数据Z计算位置和速度向量。虽然条件向量场依赖于Z，但通过批量训练不同数据，神经网络最终能学习到不依赖特定数据的边缘向量场。整个方法的核心是利用

2026-03-25 19:10:40 1053

原创 Flow Matching&生成算法

Flow Matching是一种新兴的生成模型方法，通过直接学习概率流将简单分布转换为复杂数据分布。相比传统扩散模型，它具有训练稳定、采样快速等优势。该方法利用向量场指导概率密度的流动，从初始正态分布逐步变形为目标数据分布。关键概念包括轨迹（记录点随时间的位置变化）、向量场（定义运动规则的速度场）和流（轨迹集合）。神经网络通过学习最优向量场，将采样点从初始分布引导至目标分布，实现高效生成。这种技术在Stable Diffusion3等先进模型中已有应用，为下一代生成模型奠定了基础。

2026-03-24 17:05:00 367

原创 [LLM量化] 深入理解大模型量化：GPTQ 原理解析

GPTQ是一种经典的后训练量化算法，专为大规模预训练模型设计。它属于权重量化方法（weight-only），采用均匀量化方式，支持对称和非对称量化。GPTQ的创新点在于：1）通过统一量化顺序避免重复计算Hessian矩阵；2）采用分组量化策略减少显存带宽压力；3）使用Cholesky分解提高数值稳定性。相比OBQ算法，GPTQ显著提升了量化效率，能在不训练模型的情况下实现W3A16/W4A16的低精度量化，适用于百亿参数级别的模型。该算法解决了传统量化方法在大模型上效果差或计算复杂度过高的问题。

2026-03-24 15:05:06 570

原创深入理解大模型量化概念

本文介绍了模型量化的基本原理及GPTQ量化技术。量化通过将高精度浮点权重(如FP32)映射到低精度整数(如int8/int4)来压缩模型体积，主要分为训练时量化(QAT/QAF)和训练后量化(PTQ)。量化对象包括权重、激活值和梯度，其中权重量化最为常见。量化方法可分为均匀(uniform)和非均匀(non-uniform)映射、对称(symmetric)和非对称(asymmetric)量化。量化粒度(per-tensor/per-channel/per-group等)影响模型精度和压缩比，需结合硬件特性选

2026-03-23 22:13:49 560

原创 GPTQ&QLoRA&4bit 量化&NormalFloat4&双重量化

本文介绍了4bit量化参数配置及其在神经网络中的应用。首先解释了NF4(Normal Float 4)量化方法，该方法基于正态分布特性，在数值密集区域分配更多量化值以减少误差。量化过程包含归一化、查表映射等步骤，并保留scale值用于反量化。针对QLoRA技术，提出了分块量化和双重量化方案：将64个值作为一块独立量化，再对多个块的scale值进行8bit二次量化，使额外显存占用从12.5%降至3.174%。需要注意的是，NF4专为量化设计，量化后的int4值需反量化后才能参与计算，这也是配置中需指定计算类型

2026-03-23 18:04:52 342

原创大模型量化&对称量化&非对称量化&动态量化&静态量化&QLoRA 4bit量化

本文系统介绍了神经网络模型量化的原理与方法。首先阐述了量化的必要性，包括减少显存占用、提升计算速度等优势。详细讲解了对称量化和非对称量化的实现方式及差异，并演示了量化矩阵的计算过程。随后介绍了三种量化应用方案：训练后动态量化、静态量化以及量化感知训练，分析各自的优缺点。特别针对大模型提出了LLM.int8方法，通过分离处理异常特征解决传统量化精度下降问题。最后展示了HuggingFace中的实现方式。全文通过理论推导与实例结合，全面剖析了模型量化的核心技术。

2026-03-19 22:49:36 436

原创 DDPM详细解析&直观理解

本文系统介绍了去噪扩散概率模型(DDPM)的原理与数学推导。DDPM通过正向加噪和反向去噪两个过程实现高质量图像生成：正向过程逐步添加噪声，将图像转化为标准正态分布；反向过程训练神经网络学习去噪。关键创新点包括：1)设计加噪系数使任意时刻噪声可直接计算；2)通过贝叶斯公式推导出反向去噪的目标分布；3)将去噪任务转化为噪声预测问题。数学推导表明，模型需要拟合给定x_t条件下x_{t-1}的分布，最终简化为预测原始噪声ε。训练时随机采样时间步和噪声，用MSE损失优化网络；生成时从纯噪声出发，逐步去噪得到清晰图像

2026-03-15 21:24:36 510

原创 VAE变分自编码器&VAE Loss&基础数学知识

本文系统介绍了变分自编码器（VAE）的理论基础和实现方法。首先复习了凸函数定义、Jensen不等式和KL散度等数学知识，为理解VAE奠定理论基础。然后分析了自编码器在生成任务中的局限性，提出VAE通过引入概率分布解决该问题：编码器输出正态分布的均值和方差，而非确定点，并通过重参数化技巧实现反向传播。推导了VAE的损失函数，包含重建损失和KL散度损失两项，前者保证生成质量，后者使隐变量分布接近标准正态分布。最后给出了VAE的网络架构，包含编码器、采样和解码器三部分，通过卷积和转置卷积实现特征变换。该模型有效解

2026-03-15 16:01:21 365

原创 DINOV1~3全系列讲解

本文系统介绍了DINO系列自监督视觉模型的技术演进。DINOv1通过教师-学生网络架构，利用动量更新、中心化和锐化技术防止模型坍塌，在ViT上实现了优异的特征提取能力。DINOv2引入SK居中、KoLeo损失和MIM损失，提升了模型鲁棒性，并优化了训练效率。DINOv3通过Gram Anchoring技术解决了局部特征退化问题，采用分层数据采样策略平衡多样性与实用性，最终训练出70亿参数的通用视觉基础模型。该系列模型展现了自监督学习在视觉领域的强大潜力，为无需标注数据的通用视觉任务提供了高效解决方案。

2026-03-14 21:09:37 580

原创 GPT1&BERT&ViT三种模型解析

本文系统解析了三大基础模型架构：GPT-1、BERT和ViT。GPT-1开创性地采用"预训练+微调"范式，通过Transformer解码器架构和自回归语言模型任务，在12个NLP任务中9个刷新记录。BERT引入双向注意力机制，通过遮蔽语言模型和下一句预测任务，在11项NLP任务上取得突破性进展。ViT首次将Transformer完整应用于计算机视觉领域，证明在大规模数据集上Transformer优于CNN。三者共同确立了Transformer作为通用架构的地位，为多模态大模型发展奠定基础

2026-03-14 14:02:49 458

原创 DeepSeek-GRPO推导&DeepSeekMathV2模型讲解

本文系统介绍了GRPO算法及其在DeepSeekMathV2模型中的应用。GRPO是针对大语言模型优化的强化学习算法，通过将整个回答序列视为整体动作，利用回答间相对优势值替代PPO中的GAE优势函数，避免了训练状态价值网络，更适合大模型生成场景。DeepSeekMathV2创新性地构建了可自我验证的数学推理模型，通过生成器与验证器的协同训练机制：先训练基础验证器，再构建元验证器提升验证质量，最终训练出能同时生成证明和自我验证的模型。实验表明该模型在数学竞赛数据集上显著超越GPT-5等主流模型。

2026-03-12 21:19:00 681

原创预训练&SFT&PPO训练大模型

本文系统介绍了大语言模型(LLM)的训练方法，主要包括三个关键环节：预训练、监督微调(SFT)和强化学习(PPO)。在预训练部分，详细讲解了从零训练和使用预训练模型两种方式，以及核心训练代码实现；在SFT环节，重点阐述了对话模板(Chat Template)、仅计算回答部分损失(Completions Only)和嵌入噪声(NEFT)三大技巧；最后深入解析了PPO强化学习训练，包括奖励模型训练、四模型架构设计、优势函数计算和损失函数优化等关键技术。文章通过大量代码示例展示了各环节的具体实现方法，为LLM训练

2026-03-12 15:21:59 383

原创强化学习核心概念&PPO推导

本文系统介绍了强化学习基础概念和PPO算法原理。首先阐述了环境(environment)、智能体(agent)、状态(state)、动作(action)、奖励(reward)等核心概念，并以超级玛丽游戏为例说明策略函数(policy)和轨迹(trajectory)的含义。接着详细推导了强化学习训练策略，包括期望回报最大化、梯度上升法、策略梯度算法等数学原理。然后重点讲解了PPO算法的改进：通过重要性采样实现off-policy训练，使数据可重复利用；引入KL散度或截断函数约束策略更新幅度，确保训练稳定性。P

2026-03-11 18:54:48 958

原创强化学习RLHF&DPO推导

本文介绍了基于人类反馈的强化学习（RLHF）及其优化方法DPO。RLHF通过监督微调、奖励模型训练和强化学习优化三个步骤使模型学习人类偏好，其中PPO算法通过"裁剪"机制保证稳定性。针对RLHF流程复杂的问题，DPO提出革命性改进：发现语言模型策略与人类偏好间存在直接数学关系，将奖励模型训练和强化学习优化合并为单一监督学习问题。文章详细推导了DPO算法，包括奖励模型的极大似然估计训练、KL散度概念和Bradley-Terry模型的应用，最终得出简洁的DPO损失函数，无需单独训练奖励模型即

2026-03-11 00:10:12 406

原创交叉熵损失&大模型可调节参数&LoRA

本文主要介绍了三个深度学习中的重要概念：1.交叉熵损失函数：从极大似然估计和信息论两个角度解释其原理，说明其作为分类任务损失函数的合理性；2.大模型生成参数：详细解析了top-k、top-p、temperature等参数的作用机制和协同应用顺序，以及beam search算法的实现原理；3.LoRA微调技术：阐述了其通过低秩分解减少训练参数量的原理，分析了rank和alpha参数的作用，并总结了该方法的优势。这三个主题分别从损失函数设计、模型生成控制和参数高效微调三个维度，深入浅出地讲解了深度学习中的关键技

2026-03-10 19:40:47 347

原创位置编码&RoPE&MLA&DeepSeekV3-MTP知识详解

摘要：本文系统讲解了DeepSeek-v3模型的核心技术创新。首先分析了位置编码的演进，从绝对位置编码到旋转位置编码的数学原理及其优势。重点阐述了MLA（多头潜在注意力）机制，通过KV特征压缩和解压技术，在降低显存占用的同时提升模型性能。详细介绍了DeepSeekV3的创新点：改进的MoE路由机制、动态负载均衡策略，以及突破性的多token预测（MTP）方法。MTP通过并行预测和验证机制，既提高了训练效率，又实现了推理加速。实验表明这些创新使DeepSeekV3在性能上超越了GPT-4等模型，同时显著降低了

2026-01-12 13:17:49 561

原创 Transformer新感与MOE&DeepSeek-MOE架构

本文首先补充了Transformer模型的关键细节，包括低秩投影、GPT3的参数配置（12288维embedding、96个注意力头）、softmax温度调节机制等。其次详细介绍了MOE（混合专家）架构：通过将前馈层拆分为多个小型专家网络，配合路由机制选择部分专家处理输入，在保持计算量的同时提升模型容量。文章还讨论了MOE的训练挑战及解决方案，如负载均衡损失函数。最后重点分析了DeepSeek-MOE的创新：细分专家数量（如16个专家增至32个）、设置共享专家处理通用知识，实验表明该架构在相同计算量下性能优

2026-01-09 19:42:31 633

原创 Attention优化问题&Sparse Attention&Efficiency Linear Attention&Infini Attention

摘要：本文探讨了多种Attention优化方法。SparseAttention通过稀疏化注意力矩阵降低计算复杂度（O(n√n)或更低），以精度换空间；EfficientAttention通过数学优化将复杂度降为线性(O(n))；InfiniAttention实现无限上下文窗口，结合压缩记忆和线性访问；PagedAttention借鉴操作系统分页管理优化KVcache显存利用率至96%。这些方法通过数学或机制优化，在精度、空间、时间之间取得平衡，提升大模型效率。

2025-10-26 15:06:24 1111

原创 Flash Attention详解&GPU基础结构（肯定有帮助）

本文系统介绍了GPU基础结构与FlashAttention优化原理。GPU通过大规模并行计算架构（如A100的13824个线程）实现高吞吐量，其核心SM单元包含CUDA Core和Tensor Core，专为矩阵运算优化。FlashAttention针对注意力机制进行IO优化，采用分块计算策略，将矩阵分解为适应SRAM缓存的小块，通过创新的softmax分块算法减少HBM显存访问（从6次降至2次），并利用计算融合技术提升效率。该算法保持计算精度不变，通过牺牲部分计算量换取显存占用降低，使训练速度提升2-4倍

2025-10-26 00:00:07 770

原创 KV cache、MHA、MQA、GQA详解（绝对有帮助）

本文介绍了Transformer中多头注意力机制(MHA)的几种优化方法。首先详解了KVcache技术，通过缓存已计算的KV矩阵减少重复运算，实现推理阶段的空间换时间优化。然后回顾MHA原理，指出其通过分割维度实现并行计算和特征多样性。随后重点分析了MHA的优化版本GQA(分组查询注意力)，通过分组共享KV权重，在保证效果的同时显著降低显存占用。文章最后指出，这些优化体现了计算机领域典型的时空权衡理念，未来还将有MLA等新技术持续演进。

2025-10-25 12:00:41 1240

原创 Transformer&Attention详解（一定有帮助）

本文系统梳理了Transformer架构中的核心组件——Attention机制的来龙去脉。文章首先指出RNN处理文本时的两大缺陷：遗忘问题和重要性判断不足，进而引出Attention通过引入编码器-解码器结构解决这些问题。重点解析了Transformer的三大部分：Embedding+位置编码、编码器（含多头注意力机制）和解码器（带掩码机制）。详细阐述了QKV向量的计算逻辑、注意力分数的生成过程，以及多头机制如何通过分组降维提升模型表现。文章强调Transformer通过矩阵并行运算大幅提升计算效率，并完整

2025-10-24 23:28:05 1197 1

m0_65648831的博客