Kimi-VL Technical Report
目录
1. 引言
本文介绍了 Kimi-VL,一种高效的开源 专家混合(Mixture-of-Experts, MoE)视觉语言模型(VLM)。
Kimi-VL 在 多模态推理、长文本理解与智能 agent 任务上表现卓越,仅激活了语言解码器中的 2.8B 参数。该模型在多模态任务领域表现出色,包括大学级(college-level)图像和视频理解、OCR、数学推理、多图像理解等,可与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等先进模型竞争,甚至在若干关键任务中超越 GPT-4o。此外,Kimi-VL 能处理长上下文(128K token)并具备高分辨率视觉编码器 MoonViT,使其能高效处理超高分辨率输入。
此外,本文推出了 具备长链式思维(CoT)强化学习的变体 Kimi-VL-Thinking,进一步提升复杂多模态推理能力,树立了参数高效的思维型多模态模型新标准。
1)Kimi-VL 很智能:在纯文本能力上可媲美高效的纯文本大语言模型(LLMs);即便没有启用长链式推理(long thinking),Kimi-VL 在多模态推理和多轮智能代理任务(如 MMMU、MathVista、OSWorld)上已经具备了较强的竞争力。
2)Kimi-VL 能处理长内容:在其 128K 的上下文窗口中,它能够高效处理各种多模态的长输入,在长视频基准测试(如 LongVideoBench)和长文档基准测试(如 MMLongBench-Doc)上远超类似规模的竞争模型。
3)Kimi-VL 视觉感知清晰:在视觉感知、视觉常识知识、OCR(光学字符识别)、高分辨率操作系统截图理解等各种视觉语言任务中,表现出全面且突出的竞争能力,优于现有的高效密集型及专家混合型(MoE)视觉语言模型(VLMs)。
2. 方法
2.1 模型架构
Kimi-VL 架构包括:
-
MoonViT 视觉编码器: 由 SigLIP-SO-400M 初始化并继续进行预训练。采用原生(native)分辨率处理图像,无需复杂的图像分割与拼接。引入 2D RoPE 位置编码,有效处理高分辨率图像特征。
-
MLP 投影层: 通过像素 shuffle 和两层 MLP,将视觉特征映射至语言模型空间。
-
MoE 语言模型: 基于 Moonlight MoE 模型,仅激活 2.8B 参数,总参数量 16B,初始预训练文本数据量为 5.2T tokens,后续继续以多模态数据联合训练。
2.2 优化器
采用改进的 Muon 优化器,加入权重衰减并使用 ZeRO-1 分布式实现优化内存效率。
2.3 预训练阶段
预训练分为四阶段:
-
视觉编码器训练阶段:基于图文对训练 MoonViT。在类似 CoCa(Contrastive Captioner)的阶段中使用 2T tokens 训练 ViT 后,利用另外 0.1T tokens 将 MoonViT 与 MoE 语言模型进行对齐,在此阶段仅更新 MoonViT 和 MLP 投影层的参数。
-
联合预训练阶段:渐进式增加多模态数据比例以保护语言能力。
-
冷却阶段:高质量文本与多模态数据微调,显著提升性能。对于语言部分,结合使用合成数据可提升性能。对于多模态部分,通过过滤和重写来合成 QA 对。
-
长上下文激活阶段:包含两阶段,每阶段 4x,扩展模型上下文长度从 8K 至 128K,提升长文档理解能力。该阶段所使用的长序列数据不仅包括长文本,还包含长多模态数据,比如长交织数据(interleaved data)、长视频以及长文档。
经过长上下文激活训练后,模型能通过 “海底捞针”(Needle-in-a-Haystack, NIAH)测试,无论是在长纯文本还是长视频环境下均能成功,这验证了模型在长上下文理解方面的通用性能力。表 2 中提供了模型在不同上下文长度(最长至128K)下的 NIAH 测试召回率(recall accuracy)。
2.4 后续训练阶段
本阶段包含三个步骤,进一步增强模型的推理和指令遵循能力:
-
联合监督微调:采用混合的纯文本和视觉语言指令数据,对模型进行微调,提升模型与用户交互的能力,训练时仅优化回答和特定 token。
-
长链式思维(long-CoT)监督微调:通过人工筛选与提示工程构建高质量长链推理数据,训练模型掌握 计划(planning)、评估(evaluation)、反思(reflection)和探索(exploration)等多步推理策略。
-
强化学习:采用基于在线策略镜像下降(policy mirror descent)的RL方法,通过奖励模型评估答案准确性,引导模型自动生成结构化推理路径,进一步提高复杂问题的求解能力,并减少冗余推理步骤。
2.5 基础设施
Kimi-VL 的训练基础设施从数据存储和并行计算两方面优化效率与扩展性:
存储系统:采用兼容 S3 的对象存储,结合高效灵活的数据加载系统,具备以下能力:
-
支持在线打乱、混合、分词、掩码、打包;
-
数据增强同时保持图文空间信息;
-
支持中断恢复训练;
-
可控负载与高速读取。
四维并行策略(4D Parallelism):结合四种并行策略显著提升训练吞吐量(比 7B 密集模型高 60%,例如基于 Qwen2.5-7B 的 VLM):
-
数据并行(DP):模型复制处理不同小批次(micro-batches);
-
专家并行(EP):将 MoE 中专家分布到不同设备;
-
流水线并行(PP):模型按层划分,分阶段执行;
-
上下文并行(CP):长序列拆分分布到多个设备并配合 FlashAttention。
此外,还使用 ZeRO1 优化器与选择性激活检查点策略,以进一步降低显存占用和通信开销,支持超长序列的高效训练。
3. 数据构建
3.1 预训练数据
多模态语料涵盖六大类别:
-
图像字幕(Caption)
-
图文交织(Interleaving)
-
OCR 数据
-
知识数据(Knowledge)
-
视频数据(Video)
-
智能代理(Agent)数据
针对每类数据进行过滤、去重和质量控制,增强模型处理多模态输入的能力。
3.2 指令数据
通过人工标注和模型生成方式构建覆盖广泛场景的指令数据,提升模型对话与任务执行能力。
对于 非推理类任务(如图表解读、智能体操作、OCR、图像对话、问答、写作及文本处理等)
- 首先通过人工标注构建初始种子数据集,用于训练一个种子模型。
- 随后,收集多样化的提示(prompts),利用该种子模型为每个提示生成多个回答,由人工评审打分并精修评分最高的回答,作为最终答案。
而对于 推理类任务(如视觉编程、视觉推理、数学/科学问题等)
- 由于规则或模型验证比人工更高效且准确,采用拒绝采样方法扩展监督微调数据集。
- 最终构成的标准监督微调数据集中文本与图像 token 的比例约为 1:1。
3.3 推理数据
构建多步推理问题,采用拒绝采样(rejection sampling,RS)和提示工程生成高质量长链式思维推理路径,提升模型复杂推理能力。
4. 模型评估
4.1 与先进模型比较
Kimi-VL 采用参数高效的 MoE 架构(激活参数仅 2.8B),在多个关键任务中表现优异,超越许多规模更大的模型,如 Qwen2.5-VL-7B 和 DeepSeek-VL2。
-
大学级任务(College-level):在 MMMU、MathVista、MathVision 等学术类任务中,Kimi-VL 表现出强大的多模态推理能力,部分指标优于 Qwen2.5-VL 和 Gemma 系列。
-
通用视觉能力(General):在 MMBench、MMVet、AI2D 等通用视觉测试中,Kimi-VL 精度高达 83.1%,与 GPT-4o 相当,优于 LLaMA3 和 Gemma 系列。
-
多图像理解(Multi-image):在 BLINK 多图任务中得分 57.3%,超过大多数竞品,展示了跨图像信息整合的能力。
-
数学推理(Math):在 MathVista 上达 68.7%,超越所有对比模型,展示优异的图文数学题理解与解答能力。
-
OCR:在 InfoVQA、OCRBench 等任务中排名第一,展现了对图像文字内容的极强解析能力。
-
智能体任务(OS Agent):在 ScreenSpot、OSWorld、WindowsAgentArena 等任务中大幅领先 GPT-4o-mini 和其他开源模型,说明其在桌面/GUI 任务中的规划与执行能力很强。
-
长内容理解:在 MMLongBench 和 LongVideoBench 中表现突出,验证其对超长上下文(文本+视频)的理解能力,优于同规模模型,接近甚至超过 GPT-4o。
图 8:Kimi-VL 展示了其在符号推理与几何推断方面的能力,通过逐步求解一个圆的几何问题。模型能够分析给定条件,应用几何定理(如圆周角定理和三角形角度性质),并准确推导出目标角度。
图 9:多样化的 OCR 可视化展示。Kimi-VL 在多种内容类型上展现出强大的 OCR 能力,包括结构化财务表格、复杂数学公式以及中文手写文本。模型能够准确地将表格解析为 Markdown 格式、将公式转换为 LaTeX,并结合上下文理解转录手写段落,充分体现其在多模态文本提取与理解方面的通用性。
图 10:Kimi-VL 能够执行多步推理流程,完成复杂的图形界面(GUI)任务。在该示例中,模型成功地在 Chrome 浏览器中启用了“请勿跟踪(Do Not Track)”功能,以增强在线隐私保护。智能体(agent)能够逐屏解析界面,识别相关 UI 元素,并按顺序执行相应操作,具备清晰的思考过程、操作步骤与 API 调用能力。
图 11:视频场景切分。Kimi-VL 能够处理长视频内容,将其划分为逻辑连贯的场景,并为每个场景提供精确的起止时间戳以及细致的自然语言描述,展现出其对视频内容的深入理解与解析能力。
图 12:捕捉并理解长达一小时的视频课程中的关键信息。Kimi-VL 展示了其对教学类视频内容的理解与解析能力,能够通过分析连续帧序列提取概念的发展脉络。在本例中,模型识别出传统谚语“授人以渔,终身受益”的深化版本,即更具深意的表达:“教他鱼的滋味,让他渴望。”
4.2 Kimi-VL 的推理扩展
为了进一步提升模型的多步推理能力,本文在 Kimi-VL 基础上构建了 Kimi-VL-Thinking 版本。该版本通过 长链式思维监督微调(Long-CoT SFT) 和 强化学习(RL) 两阶段训练,显著增强了其复杂推理能力,尤其在数学与科学类任务中表现卓越。
相比基础模型,Kimi-VL-Thinking 在多个基准上表现显著提升:
-
MathVista 提升 2.6%,达到 71.3%(高于 GPT-4o 的 63.8% 和 GPT-4o-mini 的 56.7%)
-
MMMU 提升 4.7%,达到 61.7%(优于 GPT-4o-mini 的 60.0% 和 Qwen2.5-VL-7B 的 58.6%)
-
MathVision 提升 15.4%,达到 36.8%(超过 GPT-4o 的 30.4%、Gemma-3-27B-IT 的 35.5%、QVQ-72B 的 35.9%)
-
尽管在部分任务上略逊于超大规模模型,但 Kimi-VL-Thinking 仅激活 3B 参数,展现出极高的参数效率。
如图 13 所示,Kimi-VL-Thinking 在测试阶段展现出良好的 “思维长度扩展性”:
-
MathVision:随着最大推理 token 长度从 1K 提升到 16K,准确率从 18.7% 提高至 36.8%。
-
MMMU:也表现出相似的上升趋势,说明模型能有效利用更长的推理链提升推理效果。
-
MathVista:在 4K token 时准确率已达 70.9%,之后继续延长推理长度并无显著提升,说明该任务所需的推理深度较浅。
5. 结论、局限与未来工作
Kimi-VL 是一款在多模态与纯文本预训练/微调之间实现平衡的视觉语言模型(VLM),基于专家混合(MoE)架构,兼具扩展性与效率。其关键优势包括:
-
128K 上下文窗口:支持处理长文本与长视频中的精确信息检索。
-
MoonViT 原生分辨率视觉编码器:可在超高分辨率视觉任务中保持高精度,且计算成本较低。
-
Kimi-VL-Thinking:在复杂图像和视频推理中展现出强大的长链式推理能力。
整体而言,Kimi-VL 在多模态、长上下文和高分辨率任务中表现出强大的适应性与效率,具有良好的研究与产业应用前景。
局限性:
-
模型规模限制:当前模型大小虽能胜任标准任务,但对于高度专业或强语言依赖的任务仍显不足,难以应对极复杂场景。
-
推理能力尚未达上限:虽已具备强大的推理能力,但在需要更深层次理解与多步推理的复杂任务中仍有提升空间。
-
长上下文能力受限:尽管支持 128K 上下文,但由于注意力层参数量仅相当于一个 3B 模型,在处理极长序列或大体量上下文信息时仍有瓶颈。
未来工作:
-
扩大模型规模:推出更大版本模型以覆盖更复杂任务。
-
扩展预训练数据:增强语言与视觉能力基础。
-
优化后训练与测试机制:提升长链推理与推理效率,包括精细化的测试时扩展机制。
这些工作将推动 Kimi-VL 向更高级、多场景适用的多模态智能体方向发展。
论文地址:https://arxiv.org/abs/2504.07491
项目页面:https://github.com/MoonshotAI/Kimi-VL
进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群