小雨中_-CSDN博客

原创 6、KIMI-VL介绍

把 Kimi-VL 的训练路线压缩成一句话：先用混合目标把视觉底座“练到能看清与能对齐”，再用联合预训练把多模态与语言能力“拧成一股绳”，再用冷却阶段把能力结构“精炼与去噪”，最后用长上下文激活与后训练把模型推到“可用、可控、可长序列推理”的状态。高分辨率真实场景 vs 训练吞吐与工程复杂度：MoonViT 原生分辨率 + packing多模态能力提升 vs 语言能力退化：联合预训练中先语言后多模态、比例渐进能力覆盖面扩大 vs 过拟合与噪声：联合冷却的精选与合成策略、QA 占比控制。

2026-04-08 23:12:26 309

原创 5、Video-LLAMA / LLaMA-VID / LLaVA-Video

如何把每一帧的视觉信息变成对 LLM 更友好的 token 序列，并在计算预算可控下支持更长视频。：对每帧生成视觉 embedding：从用户指令生成 text-guided queryToken 生成策略：为每帧生成两类 token：：概括“与问题相关”的全局信息：保留一定数量的细节信息（可自适应池化控制长度）：释放 LLM 在图像/视频任务的指令跟随潜力先计算 query 与视觉 token 的相似度，再对视觉 token 做加权求和。给定QtQ_tQt与XtX_tXt。

2026-04-08 23:12:10 400

原创 4、Qwen-omni

输入类型Temporal ID 规则空间 ID 规则文本所有 token 共享同一 Temporal 设定（等价于 1D）等价于 1D-RoPE音频按固定时间片递增（例如每 40ms 一个 ID）不适用图像Temporal 固定（或统一）按像素/patch 的 height/width 分配视频（含音频）video 帧按真实时间戳映射到 Temporal；音频按固定间隔递增同图像：每帧内按 height/width 分配音频与视频帧能够映射到同一 Temporal 网格上。

2026-04-08 23:11:50 336

原创 3、Qwen系列

Qwen-VL 的训练流程分为 3 个阶段，每一阶段的目标都不同。Qwen-VL：固定分辨率 + Adapter 压缩到固定 256优点：序列长度稳定，工程容易局限：高分辨率细节受限，空间/时间建模能力有限Qwen2-VL：原生动态分辨率 + 2×2 merge + 2D-RoPE + MRoPE优点：细节保留更好，位置建模更贴近图像/视频结构工程关键：merge 与 packing 控制 token 增长Qwen2.5-VL：动态分辨率 + 动态帧率 + MRoPE 时间绝对对齐。

2026-04-08 23:11:29 371

原创 2、DeepSeek-VL / DeepSeek-VL2

维度高分辨率策略固定1024×10241024×1024+ 混合编码器（语义+细节）动态分块（tiles + 全局缩略图），自适应宽高比与分辨率视觉编码器SigLIP + SAM-B（混合）SigLIP-SO400M-384（多块编码） + token 压缩 + 布局标记结构提示主要靠融合后的序列显式建模二维布局边界语言模型DeepSeekMoE（多规模）+ MLA（KV 压缩）主要解决痛点在 token 预算内兼顾语义与细节；提升真实世界稳健性。

2026-04-07 11:16:18 416

原创 1、LLaVA 系列

LLaVA（Large Language and Vision Assistant）是一类开源视觉语言助手模型，核心贡献是把推广到：给定一张图片和自然语言指令，模型能够像聊天助手一样进行回答、描述，并在一定程度上完成视觉推理与基于图像的复杂问答。

2026-04-07 11:15:50 418

原创 13、ImageBind：用“图像做桥”把六种模态绑定到同一嵌入空间

ImageBind 的贡献可以浓缩为一句话：用“图像配对”替代“全模态两两配对”，在统一嵌入空间中实现多模态绑定，并涌现出未见模态对之间的对齐能力。大幅降低训练数据的配对门槛把 CLIP 式的零样本范式推广到更多非文本配对稀缺的模态为多模态检索、组合语义与生成系统提供统一表示基础当某个模态（这里是图像）拥有最丰富、最易得、最具语义覆盖的天然配对资源时，可以把它当作跨模态对齐的“公共枢纽”，以此把其它模态的语义结构映射到同一空间。

2026-04-07 11:15:23 355

原创 12、EVA-CLIP：高效训练的强零样本 CLIP 系列

下面将按“背景 → 核心方法 → 训练/推理流程 → 实验与消融 → 关键启示”的结构展开，并在必要处给出公式与直观案例。

2026-04-07 11:15:00 377

原创 11、EVA：以 CLIP 特征重构驱动的可规模化视觉基础模型

将图像分割为NNN个 patch（例如14×1414×14的 patch 网格），用 ViT 进行编码。引入掩码集合MM表示被遮蔽的 patch 索引集合，可见 patch 索引集合为VVM∪V12NM∩V∅M∪V12NM∩V∅EVA 使用 block-wise masking（块状遮蔽），常用遮蔽比例约为4040\%40%，使得模型必须依赖全局上下文推断缺失部分。不需要语义 token 化不需要显式图文对训练。

2026-04-07 11:14:35 412

原创 10、MVP（Multimodality-guided Visual Pre-training）详解：用多模态知识“拯救”MIM 的语义判别力

改造 MIM 的监督目标：从纯视觉 tokenizer（语义弱）切换为 CLIP 视觉特征（语义强）把多模态知识注入视觉预训练：不需要额外标注，用图文对齐训练出的语义空间作为指导同时对齐全局与局部：既学习场景级语义（CLS），也学习 patch 级语义（局部对象与关系线索）

2026-04-05 17:19:20 334

原创 9、BEiT-3：把图像当作“外语”的通用多模态基础模型

共享 self-attention：学习跨模态对齐与通用交互规律多路专家 FFN：分别处理视觉/语言/视觉-语言的特异性表达结果：同一个预训练骨干可被组织成视觉编码器、语言编码器、融合编码器、双编码器检索器、以及生成式（seq2seq）结构，从而覆盖大量视觉与视觉-语言任务，而无需为每类任务单独设计新的预训练骨干。

2026-04-05 17:18:55 289

原创 8、BEiT-2 详解：用 VQ-KD 把 MIM 从像素重建升级到语义重建

BEiT-2（BEiT v2）是在 BEiT 的 Masked Image Modeling（MIM）范式上做出的关键升级：它不再让模型去“补像素”，而是让模型去“补语义 token”。其核心创新是：用一个强教师（如 CLIP / DINO）提供的语义特征作为监督信号，训练出一个（离散码本 + 量化器 + 解码器），将每个 patch 映射为紧凑的离散 token，使 MIM 的重构目标从像素级提升到语义级。与此同时，BEiT-2 还引入。

2026-04-05 17:18:34 319

原创 7、BEiT：把 BERT 式“掩码建模”带到视觉 Transformer 的自监督预训练

BEiT（mageransformers）是一类典型的方法：它不做像素回归重建，而是先把图像 patch，再让 ViT 在被遮挡的 patch 上预测对应的 token ID。整体思想与 NLP 的 BERT/MLM 非常接近——只是把“词表上的词”换成了“视觉词表上的离散 token”。

2026-04-05 17:18:12 393

原创 6、SigLIP：用 Pairwise Sigmoid 重新思考 CLIP 的对比学习损失

视觉-语言对比预训练（Vision-Language Contrastive Pretraining, VLP）以 CLIP/ALIGN 为代表：用海量图文对把图像与文本映射到同一嵌入空间，通过“相似则近、无关则远”的学习目标获得强大的零样本迁移能力。然而，传统 CLIP 风格的 softmax 对比损失天然依赖（需要看到 batch 内所有负样本），带来∣B∣×∣B∣、显存与通信开销，并迫使训练强依赖超大 batch。。这样做的收益是：损失不再需要全局归一化，样本对可以近似“独立”地计算；

2026-04-05 17:17:54 356

原创 5、InstructBLIP：面向通用视觉-语言指令跟随的统一框架（基于 BLIP-2）

InstructBLIP 是 Salesforce 团队在基础上提出的视觉-语言指令微调（Vision-Language Instruction Tuning, VL-IT）框架。（caption / VQA / 推理 / 对话 / 分类 / 视频 QA 等）。其关键特点是：在保持 BLIP-2 “冻结大模型，仅训练桥接模块”的高效范式下，通过与，显著提升零样本泛化能力（尤其是 held-out 数据集与任务级零样本）。

2026-04-01 14:12:31 327

原创 4、BLIP-2：用 Q-Former 低成本桥接视觉与大语言模型

任务训练目标核心作用注意力掩码要点ITC对齐图像-文本嵌入空间全局语义对齐禁止 Query 与 Text 互看，避免信息泄漏ITG给图像生成文本迫使 Query 提取可生成信息Text 可看 Query，Query 不可看 Text，且 Text 因果ITM判断图文是否匹配细粒度对齐 + 难负例Query 与 Text 双向互看，强化融合表示。

2026-04-01 14:12:04 371

原创 3、BLIP（Bootstrapping Language-Image Pre-training）详解：统一理解与生成，并用 CapFilt 清洗噪声网页数据

对视频任务，可以把视频当作多帧图像集合（均匀采样帧），对每帧提取特征并聚合，再做检索或问答。动量编码器（Momentum Encoder）提供一个“缓慢变化”的编码器副本，用于生成更稳定的特征或软标签。这样模型在预训练时看到的样本越来越像“真的描述图像”，自然能提升检索、caption、VQA 等下游表现。如果负样本太容易（例如文本是“汽车”，负图像是“蛋糕”），模型很快学会区分，但学不到细粒度能力。比如文本“红色的车停在路边”，和图像“红色的车在高速上行驶”，全局可能很像，但细节不匹配。

2026-04-01 14:11:44 418

原创 2、CLIP（Contrastive Language-Image Pre-training）详解：从对比学习到零样本迁移

CLIP（Contrastive Language-Image Pre-training）是 OpenAI 在 2021 年提出的视觉-语言预训练范式。。一旦对齐成功，很多视觉任务就能被改写为“文本提示即任务（prompt as task）”，模型无需为每个任务单独训练，就能做零样本迁移（zero-shot transfer）。

2026-04-01 14:11:24 359

原创 1、Vision Transformer（ViT）详解：从动机、结构到训练与 CNN 对比

ViT 的本质是把图像视作 patch token 序列，用 Transformer Encoder 做全局建模Patch Size 决定 token 数NNN，进而决定注意力的ON2O(N^2)ON2成本与细粒度表达能力[CLS] token 是一种显式的全局聚合机制，但在一些设置下 pooling（尤其 GAP）也可能更强ViT 相比 CNN 归纳偏置更弱，对数据规模更敏感：小数据可能吃亏，大规模预训练往往显著占优。

2026-04-01 14:11:00 438

原创 3.1 知识蒸馏（Knowledge Distillation, KD）简介

知识蒸馏（KD）是一类“教师—学生”（Teacher–Student）范式的模型训练技术：用一个性能更强、结构更大、表达能力更充足的教师模型，将其“知识”迁移到一个更小、更快、更省资源的学生模型中，使学生在较低推理成本下获得接近教师的效果。模型压缩：把大模型的能力迁移到小模型，以满足端侧、低延迟或低成本部署需求。性能增强：在相同参数量下，通过学习教师的“软目标/中间表征/样本关系”，提升学生的泛化性能。迁移与对齐：让学生继承教师在特定任务、特定风格或特定能力（如推理、指令跟随）上的行为模式。

2026-03-17 11:52:23 469

原创 2.1 模型剪枝（Model Pruning）

训练过程中，很多权重会收敛到很小的值或形成高度相关的表示；许多注意力头、FFN 中间维度、甚至某些层在特定任务或数据分布上贡献较小；大模型为了通用性与可迁移性，往往“留了很多余量”。剪枝的目标并不是随便删参数，而是寻找一种“近似等价”的更小模型：在保证输出不显著变化的前提下，让模型的有效自由度减少。你可能把矩阵WWW中的某些元素置零，但保留矩阵形状不变；从张量视角看，稀疏位置分布不规则（irregular sparsity）。W′M⊙WW′M⊙W其中MMM。

2026-03-17 11:52:06 420

原创 1.1 模型量化简介：从动机、对象到主流方法全景

模型量化（Quantization）的核心目标，是用去近似表示原本的浮点权重/激活，从而在下换取更低的显存/内存占用、更高的推理吞吐、更低的部署成本。直观理解：把连续的实数空间“压扁”为有限多个离散格点，模型仍能工作，但表示能力会受到一定约束。

2026-03-17 11:51:50 377

原创 8.1 MoE 系列：从 GShard 到 Mixtral，再到 Switch Transformer

Mixture-of-Experts（MoE）是一类“条件计算（conditional computation）”结构：模型不再对每个 token 都执行同样的全量前馈计算，而是通过一个路由器（Router / Gate）为每个 token 选择少量专家（Experts）参与计算。这样可以在总参数量大幅增长的同时，让每个 token 的计算量保持接近不变（或增长很少）。MoE 的核心由三部分构成：下面分别以 GShard（Top-2）、Mixtral（Top-2 SwiGLU Experts）、**Swit

2026-03-17 11:51:05 380

原创 7.2 DeepSeek-R1：从“纯强化学习自进化”到“多阶段可用推理模型”，以及 DeepSeek-Prover-V2 的形式化证明管线

子目标分解与冷启动数据生成用大模型生成证明草图，把复杂定理拆成多个子目标（类似人类先写证明框架）。递归求解子目标用专门证明器模型逐个解决子目标，把sorry占位符补齐。课程学习 + 一致性奖励的强化训练从简单到困难训练，并用一致性约束防止最终证明偏离原先分解结构。

2026-03-17 11:50:38 365

原创 7.1 DeepSeek 系列模型结构与训练范式详解（V1 / Math / V2 / V3）

V1：在 LLaMA 范式上，用成熟的结构组件（Pre-RMSNorm / SwiGLU / RoPE / GQA）+ 大规模 tokenizer + SFT/DPO 对齐配方，构建通用对话模型体系。：从数据角度切入，用“种子语料 + fastText 召回 + 多轮迭代 + 去污染”构建 120B 数学 tokens，再结合数学指令微调与 GRPO 强化学习，把数学能力做成可扩展管线。V2。

2026-03-10 20:58:13 296

原创 7.1 大模型的packing

Packing的核心思想是：把多条短序列“拼接”成一条更长的序列，让每个 batch 的 token 数尽量贴近上限，从而提高η\etaη。按 batch 内最长样本长度对齐：把 batch 内样本打包后再按该 batch 最长长度 pad按模型最大长度对齐：每个 pack 直接凑到最大长度Lmax⁡L_{\max}Lmax（例如 4k / 8k / 128k），最大化吞吐本质上，Packing 是把“padding 浪费”转移为“更高密度的有效 token 训练”。

2026-03-10 20:56:36 359

原创 6.1 推理耗时：从逐 Token 生成到瓶颈与优化

大语言模型（LLM）的推理（inference）通常指：给定输入 Prompt，模型按自回归方式逐步生成输出 Token。

2026-03-10 20:56:17 550

原创 5.1 vLLM：从 KV Cache 到 PagedAttention 的推理加速

用分页式 KV Cache 管理减少显存浪费，提升可并发请求数。面向服务的调度：结合连续批处理思想，让 Decode 阶段也能维持较大的有效 batch，从而提升 GPU 利用率。抓住真实瓶颈：不是只优化算子，而是同时优化“显存分配 + 请求调度 + 推理阶段差异”。有效并发数：同样显存下能挂多少活跃请求（KV Cache 利用率决定上限）Decode 阶段吞吐：token/s 往往由 Decode 决定（调度决定上限）尾延迟（P95/P99）

2026-03-10 20:55:47 433

原创 6.1 Qwen 系列模型全解析（Qwen1 → Qwen3）

问题：数字作为整体 token 太稀疏设计：数字拆分成单字符 token，配合扩词表结果：数学、代码、表格任务更稳。

2026-03-10 20:55:13 936

原创 4.2 DeepSpeed：混合精度训练与 ZeRO 零冗余优化器

但代价是：forward/backward 时需要把当前 layer 用到的参数“临时聚合”到参与计算的设备上，从而带来更高的通信开销与调度复杂度。由于推理不需要保留反向激活，也不需要梯度与优化器状态，推理阶段的并行度可以与训练阶段不同，甚至可以构建多个推理数据并行组，提高并发生成能力。一种常用做法是：在进入生成阶段前，将参数从 ZeRO-3 的分片布局，转换为更适合推理的并行布局（例如张量并行 TP）。的情况下，获得分布式训练与混合精度能力，并且能通过配置接入 DeepSpeed 的 ZeRO 等策略。

2026-02-23 11:51:06 955

原创 4.1 Megatron-LM：千卡级集群预训练的“硬核”框架

Megatron-LM 是一个基于 PyTorch 的分布式训练框架，专门面向（尤其是 GPT/LLaMA 类 decoder-only 架构）的超大规模训练。它在工程上追求“极致吞吐”，在千卡级甚至万卡级训练中，往往能取得非常强的性能与可扩展性。但需要明确的是：Megatron-LM 的优势来自于它对训练路径的深度侵入式优化，这也带来了“框架与模型强耦合、抽象弱、可维护性差”等一系列工程代价。。

2026-02-23 11:48:37 1004

原创 3.1 PagedAttention 核心机制

对每条序列，将其 KV Cache 按 token 维度切分成固定大小的块。设每块容纳BBB个 token（block size），则长度为TTTNblocks⌈TB⌉Nblocks⌈BT⌉每个块都对应一段固定大小的 KV 存储空间。系统为序列维护一个“块表”（block table），把逻辑块编号映射到物理块地址。把 KV Cache 的分配单位从“序列连续大块”变成“固定大小页”解决碎片化显存浪费从 60%–80% 降到个位数百分比（通常只剩最后块浪费）

2026-02-23 11:42:06 860

原创 2.1 FlashAttention 详解：IO 感知的精确注意力加速

ON2O(N^2)ON2设 batch=1，序列长度NNN，每个 token 的 head 维度为ddd。忽略多头与 batch 只是简化符号，不影响结论。SQKT∈RN×NSQKT∈RN×NPsoftmaxS∈RN×NPsoftmaxS∈RN×NOPV∈RN×dOPV∈RN×d计算量：主要是两次 GEMM，复杂度ON2dO(N^2 d)ON2d显存：必须显式存SSS。

2026-02-23 11:39:34 598

原创 1.1 模型显存总体分析

使用更省显存的注意力实现（如 FlashAttention 路径）更新到更高版本的 CUDA/cuDNN/cuBLAS 以获得更优的 workspace 策略使用更优化的 SDPA 内核选择逻辑需要完整验证与回归测试可能影响稳定性与可复现性。

2026-02-23 11:32:38 998

原创 5.1 GLM 系列：从 Autoregressive Blank Infilling 到 Agentic MoE

GLM 的关键在于 attention mask 的设计。Part A 内 tokens彼此可见（双向注意力）不可见Part B tokens（避免“偷看答案”）可见Part A（需要条件信息）可见Part B 中过去 tokens，不可见未来 tokens（因果自回归）如果将拼接后的序列记为A;B[A;B]A;B，对任意两个位置iji,jij若i∈Ai \in Ai∈A且j∈Aj \in Aj∈A：允许 attention若i∈A。

2026-02-22 11:20:20 795

原创 4.1 LLaMA 系列：从 LLaMA-1 到 LLaMA-3

讨论默认以论文与技术报告中的描述为准，并配合必要的直观案例帮助理解。

2026-02-22 11:19:57 760

原创 3.1 GPT 系列：Generative Pre-Training（从 GPT-1 到 GPT-3）

迁移方式：GPT-1 主推“预训练 + 微调”；GPT-2 主推“预训练 + zero-shot”。规模与数据：GPT-2 数据与参数显著扩大（典型说法是 GPT-2 约 40GB 高质量文本，GPT-1 数据规模更小）。训练细节：LayerNorm 位置、初始化等工程细节更适配更深模型。贡献意义：GPT-2 强化了一个重要结论：当模型容量与数据多样性足够时，语言模型会呈现明显的通用迁移与多任务能力，很多任务不必再依赖额外微调。主推能力：GPT-2 强调 zero-shot 多任务；

2026-02-22 11:19:33 609

原创 2.1 PaLM 及其变体（PaLM / PaLM 2）

PaLM（Pathways Language Model）是 Google 提出的大规模语言模型工作之一。它的核心并不在于“换了一个全新的架构”，而是通过一组看似朴素但系统性的结构与训练配方改动，让模型在上更适合继续做大规模 scaling。

2026-02-22 11:19:12 917

原创 1.1 BERT 及其变体：从双向表征到统一的编码-解码范式

NSP 让模型判断句子对AB(A,B)ABBBB是否是语料中紧跟在AAA后面的下一句BBB是真实下一句（IsNext）BBB从语料随机抽取（NotNext）：强理解、强表征，适合分类、匹配、抽取：强生成，天然自回归：理解 + 生成兼顾，适合摘要、翻译、生成式任务BERT：双向读完再理解GPT：从左到右边写边推BART：先双向读懂，再自回归写出。

2026-02-22 11:18:48 888

原创 5.2 LoRA 及其变体

LoRA（Low-Rank Adaptation，低秩适配）是一类**参数高效微调（PEFT）**方法：冻结预训练模型的大部分参数，仅在少量位置引入可训练的“低秩增量”，用极少的训练参数实现接近全量微调的效果。一个直观例子是：同一个对话系统既要回答编程问题又要回答医学常识，如果分别训练了“代码 LoRA”和“医疗 LoRA”，X-LoRA 的缩放头可以在不同输入上自动提高相应 LoRA 的贡献，甚至在交叉问题中混合两者。在很多下游任务中，“改变注意力检索方式 + 改变取回内容”能带来最大收益，因此。

2026-02-21 13:51:32 772

空空如也

空空如也