(2025|Kimi,MoE,长 CoT,RL,MoonViT)Kimi-VL 技术报告

Kimi-VL Technical Report

目录

1. 引言

2. 方法

2.1 模型架构

2.2 优化器

2.3 预训练阶段

2.4 后续训练阶段

2.5 基础设施

3. 数据构建

3.1 预训练数据

3.2 指令数据

3.3 推理数据

4. 模型评估

4.1 与先进模型比较

4.2 Kimi-VL 的推理扩展

5. 结论、局限与未来工作


1. 引言

本文介绍了 Kimi-VL,一种高效的开源 专家混合(Mixture-of-Experts, MoE)视觉语言模型(VLM)。

Kimi-VL 在 多模态推理、长文本理解与智能 agent 任务上表现卓越,仅激活了语言解码器中的 2.8B 参数。该模型在多模态任务领域表现出色,包括大学级(college-level)图像和视频理解、OCR、数学推理、多图像理解等,可与 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等先进模型竞争,甚至在若干关键任务中超越 GPT-4o。此外,Kimi-VL 能处理长上下文(128K token)并具备高分辨率视觉编码器 MoonViT,使其能高效处理超高分辨率输入。

此外,本文推出了 具备长链式思维(CoT)强化学习的变体 Kimi-VL-Thinking,进一步提升复杂多模态推理能力,树立了参数高效的思维型多模态模型新标准。

1)Kimi-VL 很智能:在纯文本能力上可媲美高效的纯文本大语言模型(LLMs);即便没有启用长链式推理(long thinking),Kimi-VL 在多模态推理和多轮智能代理任务(如 MMMU、MathVista、OSWorld)上已经具备了较强的竞争力。

2)Kimi-VL 能处理长内容:在其 128K 的上下文窗口中,它能够高效处理各种多模态的长输入,在长视频基准测试(如 LongVideoBench)和长文档基准测试(如 MMLongBench-Doc)上远超类似规模的竞争模型。

3)Kimi-VL 视觉感知清晰:在视觉感知、视觉常识知识、OCR(光学字符识别)、高分辨率操作系统截图理解等各种视觉语言任务中,表现出全面且突出的竞争能力,优于现有的高效密集型及专家混合型(MoE)视觉语言模型(VLMs)。 

2. 方法

2.1 模型架构

Kimi-VL 架构包括:

  • MoonViT 视觉编码器: 由 SigLIP-SO-400M 初始化并继续进行预训练。采用原生(native)分辨率处理图像,无需复杂的图像分割与拼接。引入 2D RoPE 位置编码,有效处理高分辨率图像特征。

  • MLP 投影层: 通过像素 shuffle 和两层 MLP,将视觉特征映射至语言模型空间。

  • MoE 语言模型: 基于 Moonlight MoE 模型,仅激活 2.8B 参数,总参数量 16B,初始预训练文本数据量为 5.2T tokens,后续继续以多模态数据联合训练。

2.2 优化器

采用改进的 Muon 优化器,加入权重衰减并使用 ZeRO-1 分布式实现优化内存效率。

2.3 预训练阶段

预训练分为四阶段:

  • 视觉编码器训练阶段:基于图文对训练 MoonViT。在类似 CoCa(Contrastive Captioner)的阶段中使用 2T tokens 训练 ViT 后,利用另外 0.1T tokens 将 MoonViT 与 MoE 语言模型进行对齐,在此阶段仅更新 MoonViT 和 MLP 投影层的参数。

  • 联合预训练阶段:渐进式增加多模态数据比例以保护语言能力。

  • 冷却阶段:高质量文本与多模态数据微调,显著提升性能。对于语言部分,结合使用合成数据可提升性能。对于多模态部分,通过过滤和重写来合成 QA 对。

  • 长上下文激活阶段:包含两阶段,每阶段 4x,扩展模型上下文长度从 8K 至 128K,提升长文档理解能力。该阶段所使用的长序列数据不仅包括长文本,还包含长多模态数据,比如长交织数据(interleaved data)、长视频以及长文档。

经过长上下文激活训练后,模型能通过 “海底捞针”(Needle-in-a-Haystack, NIAH)测试,无论是在长纯文本还是长视频环境下均能成功,这验证了模型在长上下文理解方面的通用性能力。表 2 中提供了模型在不同上下文长度(最长至128K)下的 NIAH 测试召回率(recall accuracy)。

2.4 后续训练阶段

本阶段包含三个步骤,进一步增强模型的推理和指令遵循能力:

  • 联合监督微调:采用混合的纯文本和视觉语言指令数据,对模型进行微调,提升模型与用户交互的能力,训练时仅优化回答和特定 token。

  • 长链式思维(long-CoT)监督微调:通过人工筛选与提示工程构建高质量长链推理数据,训练模型掌握 计划(planning)、评估(evaluation)、反思(reflection)和探索(exploration)等多步推理策略。

  • 强化学习:采用基于在线策略镜像下降(policy mirror descent)的RL方法,通过奖励模型评估答案准确性,引导模型自动生成结构化推理路径,进一步提高复杂问题的求解能力,并减少冗余推理步骤。 

2.5 基础设施

Kimi-VL 的训练基础设施从数据存储和并行计算两方面优化效率与扩展性:

存储系统:采用兼容 S3 的对象存储,结合高效灵活的数据加载系统,具备以下能力:

  • 支持在线打乱、混合、分词、掩码、打包;

  • 数据增强同时保持图文空间信息;

  • 支持中断恢复训练;

  • 可控负载与高速读取。

四维并行策略(4D Parallelism):结合四种并行策略显著提升训练吞吐量(比 7B 密集模型高 60%,例如基于 Qwen2.5-7B 的 VLM):

  • 数据并行(DP):模型复制处理不同小批次(micro-batches);

  • 专家并行(EP):将 MoE 中专家分布到不同设备;

  • 流水线并行(PP):模型按层划分,分阶段执行;

  • 上下文并行(CP):长序列拆分分布到多个设备并配合 FlashAttention。

此外,还使用 ZeRO1 优化器与选择性激活检查点策略,以进一步降低显存占用和通信开销,支持超长序列的高效训练。

3. 数据构建

3.1 预训练数据

多模态语料涵盖六大类别:

  • 图像字幕(Caption)

  • 图文交织(Interleaving)

  • OCR 数据

  • 知识数据(Knowledge)

  • 视频数据(Video)

  • 智能代理(Agent)数据

针对每类数据进行过滤、去重和质量控制,增强模型处理多模态输入的能力。

3.2 指令数据

通过人工标注和模型生成方式构建覆盖广泛场景的指令数据,提升模型对话与任务执行能力。

对于 非推理类任务(如图表解读、智能体操作、OCR、图像对话、问答、写作及文本处理等)

  • 首先通过人工标注构建初始种子数据集,用于训练一个种子模型。
  • 随后,收集多样化的提示(prompts),利用该种子模型为每个提示生成多个回答,由人工评审打分并精修评分最高的回答,作为最终答案。

而对于 推理类任务(如视觉编程、视觉推理、数学/科学问题等)

  • 由于规则或模型验证比人工更高效且准确,采用拒绝采样方法扩展监督微调数据集。
  • 最终构成的标准监督微调数据集中文本与图像 token 的比例约为 1:1。

3.3 推理数据

构建多步推理问题,采用拒绝采样(rejection sampling,RS)和提示工程生成高质量长链式思维推理路径,提升模型复杂推理能力。

4. 模型评估

4.1 与先进模型比较

Kimi-VL 采用参数高效的 MoE 架构(激活参数仅 2.8B),在多个关键任务中表现优异,超越许多规模更大的模型,如 Qwen2.5-VL-7B 和 DeepSeek-VL2。

  • 大学级任务(College-level):在 MMMU、MathVista、MathVision 等学术类任务中,Kimi-VL 表现出强大的多模态推理能力,部分指标优于 Qwen2.5-VL 和 Gemma 系列。

  • 通用视觉能力(General):在 MMBench、MMVet、AI2D 等通用视觉测试中,Kimi-VL 精度高达 83.1%,与 GPT-4o 相当,优于 LLaMA3 和 Gemma 系列。

  • 多图像理解(Multi-image):在 BLINK 多图任务中得分 57.3%,超过大多数竞品,展示了跨图像信息整合的能力。

  • 数学推理(Math):在 MathVista 上达 68.7%,超越所有对比模型,展示优异的图文数学题理解与解答能力。

  • OCR:在 InfoVQA、OCRBench 等任务中排名第一,展现了对图像文字内容的极强解析能力。

  • 智能体任务(OS Agent):在 ScreenSpot、OSWorld、WindowsAgentArena 等任务中大幅领先 GPT-4o-mini 和其他开源模型,说明其在桌面/GUI 任务中的规划与执行能力很强。

  • 长内容理解:在 MMLongBench 和 LongVideoBench 中表现突出,验证其对超长上下文(文本+视频)的理解能力,优于同规模模型,接近甚至超过 GPT-4o。

图 8:Kimi-VL 展示了其在符号推理与几何推断方面的能力,通过逐步求解一个圆的几何问题。模型能够分析给定条件,应用几何定理(如圆周角定理和三角形角度性质),并准确推导出目标角度。 

图 9:多样化的 OCR 可视化展示。Kimi-VL 在多种内容类型上展现出强大的 OCR 能力,包括结构化财务表格、复杂数学公式以及中文手写文本。模型能够准确地将表格解析为 Markdown 格式、将公式转换为 LaTeX,并结合上下文理解转录手写段落,充分体现其在多模态文本提取与理解方面的通用性。 

图 10:Kimi-VL 能够执行多步推理流程,完成复杂的图形界面(GUI)任务。在该示例中,模型成功地在 Chrome 浏览器中启用了“请勿跟踪(Do Not Track)”功能,以增强在线隐私保护。智能体(agent)能够逐屏解析界面,识别相关 UI 元素,并按顺序执行相应操作,具备清晰的思考过程、操作步骤与 API 调用能力。 

图 11:视频场景切分。Kimi-VL 能够处理长视频内容,将其划分为逻辑连贯的场景,并为每个场景提供精确的起止时间戳以及细致的自然语言描述,展现出其对视频内容的深入理解与解析能力。 

图 12:捕捉并理解长达一小时的视频课程中的关键信息。Kimi-VL 展示了其对教学类视频内容的理解与解析能力,能够通过分析连续帧序列提取概念的发展脉络。在本例中,模型识别出传统谚语“授人以渔,终身受益”的深化版本,即更具深意的表达:“教他鱼的滋味,让他渴望。” 

4.2 Kimi-VL 的推理扩展

为了进一步提升模型的多步推理能力,本文在 Kimi-VL 基础上构建了 Kimi-VL-Thinking 版本。该版本通过 长链式思维监督微调(Long-CoT SFT)强化学习(RL) 两阶段训练,显著增强了其复杂推理能力,尤其在数学与科学类任务中表现卓越。

相比基础模型,Kimi-VL-Thinking 在多个基准上表现显著提升:

  • MathVista 提升 2.6%,达到 71.3%(高于 GPT-4o 的 63.8% 和 GPT-4o-mini 的 56.7%)

  • MMMU 提升 4.7%,达到 61.7%(优于 GPT-4o-mini 的 60.0% 和 Qwen2.5-VL-7B 的 58.6%)

  • MathVision 提升 15.4%,达到 36.8%(超过 GPT-4o 的 30.4%、Gemma-3-27B-IT 的 35.5%、QVQ-72B 的 35.9%)

  • 尽管在部分任务上略逊于超大规模模型,但 Kimi-VL-Thinking 仅激活 3B 参数,展现出极高的参数效率。

如图 13 所示,Kimi-VL-Thinking 在测试阶段展现出良好的 “思维长度扩展性”:

  • MathVision:随着最大推理 token 长度从 1K 提升到 16K,准确率从 18.7% 提高至 36.8%。

  • MMMU:也表现出相似的上升趋势,说明模型能有效利用更长的推理链提升推理效果。

  • MathVista:在 4K token 时准确率已达 70.9%,之后继续延长推理长度并无显著提升,说明该任务所需的推理深度较浅。

5. 结论、局限与未来工作

Kimi-VL 是一款在多模态与纯文本预训练/微调之间实现平衡的视觉语言模型(VLM),基于专家混合(MoE)架构,兼具扩展性与效率。其关键优势包括:

  • 128K 上下文窗口:支持处理长文本与长视频中的精确信息检索。

  • MoonViT 原生分辨率视觉编码器:可在超高分辨率视觉任务中保持高精度,且计算成本较低。

  • Kimi-VL-Thinking:在复杂图像和视频推理中展现出强大的长链式推理能力。

整体而言,Kimi-VL 在多模态、长上下文和高分辨率任务中表现出强大的适应性与效率,具有良好的研究与产业应用前景。

局限性:

  • 模型规模限制:当前模型大小虽能胜任标准任务,但对于高度专业或强语言依赖的任务仍显不足,难以应对极复杂场景。

  • 推理能力尚未达上限:虽已具备强大的推理能力,但在需要更深层次理解与多步推理的复杂任务中仍有提升空间。

  • 长上下文能力受限:尽管支持 128K 上下文,但由于注意力层参数量仅相当于一个 3B 模型,在处理极长序列或大体量上下文信息时仍有瓶颈。

未来工作:

  • 扩大模型规模:推出更大版本模型以覆盖更复杂任务。

  • 扩展预训练数据:增强语言与视觉能力基础。

  • 优化后训练与测试机制:提升长链推理与推理效率,包括精细化的测试时扩展机制。

这些工作将推动 Kimi-VL 向更高级、多场景适用的多模态智能体方向发展。


论文地址:https://arxiv.org/abs/2504.07491

项目页面:https://github.com/MoonshotAI/Kimi-VL

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值