DeepSeek-VL2：用于高级多模态理解的专家混合视觉-语言模型

最新推荐文章于 2025-03-21 09:55:14 发布

Together_CZ

最新推荐文章于 2025-03-21 09:55:14 发布

阅读量3.4k

点赞数 22

文章标签：语言模型人工智能自然语言处理 DeepSeek-VL2 高级多模态理解专家混合视觉-语言模型多模态

本文链接：https://blog.csdn.net/Together_CZ/article/details/144667604

版权

这篇文章介绍了DeepSeek-VL2，一个基于**专家混合（Mixture-of-Experts, MoE）**架构的先进视觉-语言模型（Vision-Language Model, VLM），旨在通过多模态理解能力提升AI在复杂现实世界应用中的表现。以下是文章的主要内容总结：

1. 引言

背景：大型视觉-语言模型（VLMs）在多模态任务中展现了强大的能力，扩展了AI的应用范围。
目标：提出DeepSeek-VL2，通过MoE架构在性能和效率上超越其前身DeepSeek-VL。
创新点：
- 动态分块视觉编码策略，处理高分辨率图像。
- 优化的语言模型架构，提升训练和推理效率。
- 改进的视觉-语言数据构建流程，扩展模型能力。

2. 模型架构

核心模块：视觉编码器、视觉-语言适配器、专家混合语言模型。
动态分块策略：将高分辨率图像分割为块，通过共享的视觉Transformer处理，保留局部注意力优势。
视觉-语言适配器：通过像素洗牌操作压缩视觉标记，并引入特殊标记进行视觉序列处理。
DeepSeekMoE LLM：采用多头潜在注意力机制（MLA）和稀疏计算技术，提升推理效率。

3. 数据构建

对齐数据：使用ShareGPT4V数据集进行视觉-语言对齐。
预训练数据：结合视觉-语言和纯文本数据，增强多语言能力和任务多样性。
监督微调数据：通过重新生成回答和清理数据，提升模型在OCR、文档理解、表格/图表理解、推理等任务中的表现。

4. 训练方法

三阶段训练流程：视觉-语言对齐、视觉-语言预训练、监督微调。
超参数和基础设施：使用HAI-LLM平台进行高效训练，结合流水线并行、张量并行和专家并行策略。

5. 评估

多模态性能：在多个基准测试中表现优异，特别是在OCR、文档理解、图表解释等任务上。
定性研究：展示了模型在一般问答、表情包理解、多图像对话、视觉叙事和视觉定位等方面的能力。

6. 结论

总结：DeepSeek-VL2通过动态分块策略和优化的语言模型，实现了性能和效率的平衡。
未来工作：计划扩展上下文窗口、提高模型鲁棒性、增强推理能力。

主要贡献

提出了动态分块视觉编码策略，提升了高分辨率图像的处理能力。
通过MoE架构和MLA机制，实现了高效的推理和高吞吐量。
开源了预训练模型和代码，推动了视觉-语言领域的研究进展。

局限性

上下文窗口有限，仅支持少量图像的交互。
在处理模糊图像或未见对象时存在挑战。
推理能力有待进一步提升。

通过这些创新和改进，DeepSeek-VL2在多模态任务中展现了强大的能力，并为未来的研究提供了新的方向。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目地址在这里，如下所示：

摘要

我们提出了DeepSeek-VL2，一系列先进的大型专家混合（Mixture-of-Experts, MoE）视觉-语言模型，通过两个关键升级显著超越了其前身DeepSeek-VL。对于视觉组件，我们引入了一种动态分块视觉编码策略，用于处理具有不同宽高比的高分辨率图像。对于语言组件，我们利用了具有多头潜在注意力机制的DeepSeekMoE模型，该机制将键值缓存压缩为潜在向量，从而实现高效的推理和高吞吐量。在改进的视觉-语言数据集上训练后，DeepSeek-VL2在各种任务中展示了卓越的能力，包括但不限于视觉问答、光学字符识别、文档/表格/图表理解以及视觉定位。我们的模型系列由三个变体组成：DeepSeek-VL2-Tiny、DeepSeek-VL2-Small和DeepSeek-VL2，分别具有1.0B、2.8B和4.5B激活参数。与现有的开源密集和MoE模型相比，DeepSeek-VL2在相似或更少的激活参数下实现了具有竞争力的或最先进的性能。

图1：不同开源模型的平均性能与激活参数的关系。 我们对MMBench v1.1、MMStar、MMMU（Val）、MathVista（TestMini）、AI2D（Test）和OCRBench的准确率进行了平均。OCRBench的得分除以10以缩放到[0,100]。

1 引言

大型视觉-语言模型（Vision-Language Models, VLMs）已成为人工智能领域的一股变革力量[15, 54, 59, 63, 83, 88, 94]，将大型语言模型（Large Language Models, LLMs）的显著能力扩展到无缝处理视觉和文本信息。这一进步极大地扩展了AI系统应对复杂现实世界应用的潜力，这些应用需要多模态理解。

在本技术报告中，我们介绍了DeepSeek-VL2，一系列新的开源视觉-语言模型，利用专家混合（MoE）架构在性能和效率方面相比其前身DeepSeek-VL[59]实现了显著提升。我们的进展围绕三个关键方面：（1）一种动态的高分辨率视觉编码策略，增强了视觉理解能力；（2）一种优化的语言模型架构，显著提高了训练和推理效率；（3）一个改进的视觉-语言数据构建流程，不仅提升了整体性能，还扩展了模型能力，如精确的视觉定位。

对于视觉组件，我们引入了一种动态分块视觉编码策略，能够高效处理具有不同宽高比的高分辨率图像。这种方法改进了DeepSeek-VL的混合视觉编码器，后者从图像中提取特征时使用了两种固定分辨率（384×384和1024×1024）。我们的方法避免了旧固定尺寸编码器的局限性，并在需要超高分辨率的任务中表现出色，包括视觉定位、文档/表格/图表分析和详细特征提取，同时保持了可管理的视觉标记数量。受现有分块方法的启发，我们的系统动态地将高分辨率输入分割为局部块，通过共享的视觉Transformer处理每个块，并将提取的特征无缝集成到语言模型中。这种设计保留了视觉Transformer局部注意力的优势，能够在不增加图像分辨率时通常伴随的二次计算复杂度的情况下，实现丰富的特征提取。

对于语言组件，我们利用了DeepSeek语言模型[20, 53]，采用了多头潜在注意力（Multi-head Latent Attention, MLA）机制。MLA通过将键值（KV）缓存压缩为潜在向量，显著降低了计算成本，从而加快了推理速度并提高了吞吐量。我们进一步通过DeepSeekMoE框架[20, 86]增强了效率，该框架采用了稀疏计算技术。我们的模型系列采用了三种MoE变体，分别为3B、16B和27B。这些LLM分别具有0.57B、2.4B和4.1B激活参数。

我们还极大地增强了视觉-语言训练数据的质量、数量和多样性。这一综合数据集使得模型在广泛的任务中具有更好的泛化和性能，包括视觉问答（VQA）、光学字符识别（OCR）、文档/表格/图表理解、视觉推理和通用聊天机器人应用。改进的训练数据还启用了新的能力，如视觉定位和图形用户界面（GUI）感知。

总之，DeepSeek-VL2标志着大规模专家混合视觉-语言建模的重大飞跃。通过新的视觉处理策略和优化的语言模型，我们开发了一系列在性能和效率之间取得平衡的模型。通过开源预训练模型，我们旨在加速该领域的进展并促进协作研究。

2 模型架构

DeepSeek-VL2由三个核心模块组成：（1）视觉编码器，（2）视觉-语言适配器，（3）专家混合语言模型。在其前身的基础上，DeepSeek-VL2引入了两个主要创新：动态分块策略和具有多头潜在注意力[53]的DeepSeekMoE[20, 86]语言模型。这些创新使得高分辨率视觉输入和文本数据能够更高效地处理。

图2：DeepSeek-VL2概览。 整体结构为llava风格的架构，包括视觉编码器、VL适配器和基于MoE的LLM。

动态分块策略。 原始的DeepSeek-VL采用了混合视觉编码器，结合了SigLIP[106]用于384×384分辨率的粗粒度特征提取，以及SAM-B[35]用于1024×1024分辨率的细粒度特征提取。尽管这种融合方法生成了适合各种视觉-语言任务的丰富视觉表示，但它受限于固定的1024×1024分辨率。这一限制在处理具有更大分辨率和极端宽高比的图像时尤为挑战，例如InfographicVQA[67]、密集OCR和详细视觉定位任务中的图像。

受近期VLMs进展的启发[16, 21, 55]，我们通过将高分辨率图像分割为块来实现动态分块策略。这种方法使得使用单一的SigLIP-SO400M-384视觉编码器[106]高效处理具有不同宽高比的高分辨率图像成为可能。预训练的SigLIP在384×384的基础分辨率下运行。为了适应不同的宽高比，我们定义了一组候选分辨率：cR={(m⋅384,n⋅384) ∣ m∈N,n∈N,1≤m,n,mn≤9}cR={(m⋅384,n⋅384) ∣ m∈N,n∈N,1≤m,n,mn≤9}，其中m:nm:n表示宽高比。对于尺寸为(H,W)(H,W)的输入图像，我们计算将其调整到cRcR中每个候选分辨率所需的填充区域。我们选择使填充区域最小的分辨率(ml⋅384,nl⋅384)(ml⋅384,nl⋅384)。调整后的图像被分割为ml×nlml×nl个384×384像素的局部块，加上一个全局缩略图块。SigLIP-SO400M-384视觉编码器处理所有(1+ml×nl)(1+ml×nl)个块，每个块生成27×27=729个1152维的视觉嵌入。为了计算效率和上下文长度管理，当处理多个（>2）图像时，我们禁用动态分块策略。

DeepSeekMoE LLM。 我们的语言模型基于DeepSeekMoE[20, 86]，集成了多头潜在注意力机制[53]。MLA通过将键值缓存压缩为潜在向量，增强了推理效率，从而提高了吞吐量。该模型还采用了MoE架构[20]，允许通过稀疏计算进行高效推理。在MoE训练期间，我们为每个专家引入了一个全局偏置项[86]，以经济高效地改善专家之间的负载平衡。DeepSeek-VL2有三个变体，分别为1.0B、2.8B和4.5B。完整的架构规格见表1。

表1：DeepSeek-VL2的架构配置。 我们列出了架构的超参数以及与专家混合训练相关的详细信息。

图3：DeepSeek-VL2中的动态分块策略示意图。 通过将图像分割为多个块，DeepSeek-VL2相比DeepSeek-VL实现了更强的细粒度理解能力。

3 数据构建

我们为DeepSeek-VL2构建了一个来自多种来源的综合视觉-语言数据集。训练过程分为三个不同的阶段：（1）视觉-语言对齐，（2）视觉-语言预训练，（3）监督微调（SFT）。在以下部分中，我们描述了每个阶段使用的数据。

3.1 视觉-语言对齐数据

对齐阶段专注于训练MLP连接器，以桥接预训练的视觉编码器和LLM。在这个初始预热阶段，我们使用了ShareGPT4V[12]数据集，其中包含大约120万条标题和对话样本。

3.2 视觉-语言预训练数据

继DeepSeek-VL[59]之后，我们的预训练数据结合了视觉-语言（VL）和纯文本数据，以在VL能力和纯文本性能之间保持平衡。对于DeepSeek-VL2，我们保持了大约70%的VL数据和30%的纯文本数据的比率，后者直接来自我们的基础LLM预训练语料库。在下面，我们将VL数据分为几类并描述其详细信息。

交错图像-文本数据。 我们的数据收集从几个开源数据集开始，包括WIT[79]、WikiHow[38]和OBELICS[41]的30%随机样本。这一特定混合比率是通过对DeepSeek-VL2-Tiny的初步实验确定的。为了增强多语言能力，我们从Wanjuan[29]中提取了中文内容，补充了以英语为主的数据集。此外，我们开发了一个内部数据集，以扩展对一般现实世界知识的覆盖。

图像标题数据。 图像标题是VLM训练中的基本数据，提供了视觉和文本信息之间的直接对齐。我们最初利用了多个开源数据集[8, 25, 28, 36, 37, 39, 40, 48, 50, 51, 73, 78, 80, 82]。然而，我们的初步分析发现这些数据集之间存在严重的质量差异，从由高级VLM生成的密集、准确的标题到存在简短描述、文本对不匹配或明显幻觉的问题案例。为了解决这些质量不一致的问题，我们开发了一个综合的图像标题生成流程，考虑了以下因素：（1）OCR提示，（2）元信息（如位置、相机设置），（3）相关原始标题作为提示。使用内部标题生成器，我们按照类似于PixelProse[78]的提示策略重新生成图像标题，采用不同的指令来指导VLM的标题生成。

尽管标题质量整体有所提高，但我们观察到大规模标注流程中存在重复问题。为了缓解这一问题，我们实施了一个质量控制流程，使用DeepSeek Chat[53]根据写作质量简单地对所有标题进行评分。在实践中，这种方法在过滤低质量标题方面既高效又有效。

光学字符识别数据。 为了开发OCR能力，我们使用了开源数据集，包括LaTeX OCR[7]和12M RenderedText[93]。我们将这些数据集与涵盖多种文档类型的广泛内部OCR数据集相结合。目前，我们的内部数据集主要关注英语和中文字符识别。我们计划在未来的工作中扩展到其他语言。

视觉问答（QA）数据。 在我们早期的探索中，我们发现一般QA数据明显有利于模型预训练。因此，我们开发了一个综合的视觉QA数据集，包括以下类别：

一般VQA。 我们继承了DeepSeek-VL的一般VQA数据。更多详细信息请参见[59]。
表格、图表和文档理解。 我们采用PubTabNet[112]、FinTabNet[111]和Docmatix[42]来增强文档理解能力。
网页到代码和绘图到Python生成。 我们利用Websight[44]进行网页到代码的能力，并从公开的Jupyter笔记本中获取Python绘图代码，遵循DeepSeek-VL。我们通过使用DeepSeek V2.5复制部分Websight数据集来增强该数据集。我们还利用DeepSeek V2.5生成的Python绘图代码来减少绘图到代码数据中的噪声。
带有视觉提示的QA。 我们按照[9]构建了视觉提示理解数据，通过在[9, 89, 90]的图像上叠加各种视觉指示器（箭头、框、圆圈和涂鸦），然后创建专注于这些视觉提示所突出对象的QA对。

视觉定位数据。 我们从[71, 75]构建了视觉定位数据集。对于每个图像的对象检测注释，我们按如下结构组织数据：

提示： 在给定图像中定位<|ref|><query><|/ref|>。
响应： <|ref|><query><|/ref|><|det|>[ [x1, y1, x2, y2], ... ]<|/det|>

在训练期间，问题提示从候选池中随机采样。<|ref|>、<|/ref|>、<|det|>、<|/det|>是特殊标记。<query>是对象类别名称（如“汽车”）或对象描述（如“最左边的人”）的占位符。[ [x1, y1, x2, y2], ... ]是一个边界框列表，每个边界框对应一个对象的位置。坐标x1、y1和x2、y2分别指定左上角和右下角，根据图像分辨率归一化为0到999之间的值。我们还构建了负样本，其中查询对象故意不在图像中，以增强模型的鲁棒性。

基于定位的对话数据。 我们从[71]派生了基于定位的对话数据集，结构如下：

提示： <|grounding|><|你能描述图像的内容吗？
响应： 两只<|ref|><|狗<|/ref|><|det|>[ [x1, y1, x2, y2], ... ]<|/det|>在草地上奔跑。

与其他视觉定位数据一样，<|grounding|>、<|ref|>、<|/ref|>、<|det|>、<|/det|>是特殊标记，x1、y1、x2、y2遵循相同的归一化方案。

3.3 监督微调数据

我们的SFT数据结合了多种开源数据集和高质量的内部QA对。下面，我们详细介绍了我们为提高SFT数据集质量所做的努力。

一般视觉问答。 尽管公开的视觉QA数据集种类繁多[9, 10, 27, 31, 43, 47, 74]，但它们通常存在三个主要限制：（1）简短的回答，（2）较差的OCR质量，（3）幻觉内容。为了解决这些问题，我们通过综合考虑原始问题、图像和OCR信息来重新生成回答。我们的实验表明，这种方法产生了更全面和准确的回答。在开发过程中，我们观察到DeepSeek-VL2的早期版本（特别是Tiny变体）有时会在中文回答中不恰当地插入英文单词。这一问题在我们的较大模型中并不存在，表明这可能是由于模型容量有限以及视觉-语言预训练阶段中英文数据不平衡所致。为了解决我们较小模型中的这一限制，我们开发了一个内部中文QA数据集，包含多样的图像描述和单轮/多轮对话。该数据集有助于缓解语言混合问题。此外，我们还创建了一个额外的内部数据集，以补充现实世界和文化视觉知识，包括动漫、表情包、美食和艺术。

OCR和文档理解。 得益于我们先进的图像标题生成流程，DeepSeek-VL2在OCR能力上已经优于其他最先进的VLM。因此，在SFT阶段，我们没有进一步增强OCR性能，而是专注于清理现有的开源数据集[24, 31, 43, 66, 67, 77, 92, 104]，移除OCR质量较差的样本。对于文档理解，我们从内部数据中筛选出多样的文档页面，并生成针对文档理解的多轮对话QA对。早期结果表明，这种方法提高了基于文档的交互能力。

表格和图表理解。 我们通过重新生成所有公开数据集[14, 49]的回答（除了Cauldron[43]，其质量已经很高）来增强基于表格的QA数据。与我们在VL预训练期间开发的OCR能力类似，我们的模型在图表理解方面表现出色，无需额外努力。

推理、逻辑和数学。 我们通过添加更详细的推理过程并标准化回答格式（将最终答案放在回答的末尾）来增强公开的推理数据集[17, 43, 61, 76, 102, 109]。我们观察到，详细的回答在训练较小的VLM时效果较差。在我们的探索中，DeepSeek-VL2-Tiny在更简洁的回答下表现更好。

教科书和学术问题。 我们从文档集合中构建了一个专注于教科书的内部数据集。该数据集主要涵盖多个学术学科的大学水平内容。

网页到代码和绘图到Python生成。 我们扩展了用于网页代码和Python绘图代码的内部数据集，超出了预训练期间使用的内容。对于开源数据集，我们通过重新生成其回答来提高其质量。

视觉定位。 我们使用[2, 23, 64, 85, 101, 110]的数据开发了视觉定位数据集。为了提升模型能力，我们将查询短语翻译成中文，并创建了额外的负样本。我们还添加了上下文视觉定位数据，任务是在给定参考图像中突出显示的参考对象的情况下，在多个图像中定位同一类别的对象。数据格式如下：

提示： <|grounding|>第一张图像显示了<object>。请在第二张图像中识别同一类别的对象。
响应： <|ref|><description><|/ref|><|det|>[ [x1, y1, x2, y2] ]<|/det|>

在此格式中，<|grounding|>、<|ref|>、<|/ref|>、<|det|>、<|/det|>是特殊标记。<object>占位符表示短语如“红色边界框内的对象”，而<description>是模型对检测到的对象的描述（例如，“猫”）。

基于定位的对话。 我们使用[62, 72]构建了基于定位的对话数据，以进一步增强模型在预训练阶段建立的能力。

纯文本数据集。 为了保持模型的语言能力，我们在SFT阶段还使用了纯文本指令调优数据集[4, 6, 18, 19, 68, 70, 84, 91, 98]。

4 训练方法

4.1 训练流程

DeepSeek-VL2通过三个阶段的流程进行训练：（1）初始阶段，我们训练视觉编码器和视觉-语言适配器MLP，同时保持语言模型固定，使用第3.1节中详细描述的图像-文本配对数据；（2）预训练阶段，我们使用第3.2节中描述的数据进行视觉-语言预训练；（3）微调阶段，我们使用第3.3节中概述的数据进行监督微调。在预训练和微调阶段，所有模型参数，包括视觉编码器、视觉-语言适配器和语言模型，都被解锁并同时训练。在所有阶段，我们强调视觉理解能力，并仅在文本标记上计算下一个标记预测损失。

视觉-语言对齐。 基于预训练的语言模型（DeepSeekMoE 3B/16B/27B），我们的主要目标是建立视觉特征和语言特征之间的稳健连接。这种对齐使得预训练的语言模型能够有效处理视觉输入。与之前的做法[54, 59]不同，我们没有保持预训练的视觉编码器和语言模型固定，而是将固定分辨率的视觉编码器适配为动态高分辨率图像。在此阶段，我们优化视觉编码器和视觉-语言适配器，同时保持语言模型冻结。

视觉-语言预训练。 在嵌入空间中建立视觉-语言对齐后，我们将大部分计算资源用于视觉-语言预训练。此阶段专注于开发跨多种任务的综合视觉-语言知识。我们解锁所有参数，包括视觉编码器、视觉-语言适配器MLP和DeepSeekMoE LLM，以实现全面模型优化。使用大约8000亿图像-文本标记（第3.2节），此阶段显著增强了模型的多模态理解能力，同时保持了其大部分语言能力。

监督微调。 在最后阶段，我们通过监督微调增强预训练模型的指令遵循和对话能力。使用我们的内部视觉-语言SFT数据，我们优化所有参数，同时仅监督回答和特殊标记，屏蔽系统提示和用户提示。为了增强对话理解能力，我们将多模态数据与DeepSeek-V2[53]中的纯文本对话数据相结合。这种方法确保了模型在多种视觉-语言任务中的稳健性能，包括密集图像标题生成、一般VQA、OCR、表格/图表/文档/图形理解、视觉到代码、视觉推理、视觉定位和语言理解等。

4.2 超参数和基础设施

DeepSeek-VL2训练的详细超参数列于表2。我们使用HAI-LLM[30]进行训练和评估，这是一个为大型模型设计的高效轻量级平台。在我们的流水线并行策略中，一个显著的挑战来自于视觉编码器与LLM块相比的独特计算特性。作为模型的第一个组件，视觉编码器需要在GPU之间进行仔细的负载平衡，以防止流水线气泡并优化GPU利用率。为了解决这一问题，我们在流水线并行策略中实现了视觉编码器的细粒度层划分。此外，我们在前向和后向过程中对不同数据并行秩之间的图像块进行负载平衡，以缓解动态分辨率策略导致的图像块数量不平衡问题。我们的训练过程还结合了张量并行和专家并行方法，以实现最高效率。由于某些数据批次仅包含文本数据，而其他批次包含图像数据，我们引入了两种不同的流水线策略，并根据需求在这些策略之间切换。DeepSeek-VL2的训练在16/33/42个节点集群上完成，每个节点配备8个NVIDIA A100 GPU，分别耗时7/10/14天。

表2：DeepSeek-VL2训练的超参数。 Step LR调度器在总训练步数的50%和75%时将学习率除以√10。

5 评估

5.1 多模态性能

基准测试。 我们对DeepSeek-VL2在多个常用基准上进行了全面评估，包括DocVQA[66]、ChartQA[65]、InfoVQA 2[67]、TextVQA[77]、RealWorldQA[95]、OCRBench[57]、AI2D[34]、MMMU[105]、MMStar[13]、MathVista[60]、MME[26]、MMBench、MMBench-V1.1[58]和MMT-Bench[100]。这些基准涵盖了从文档理解、图表解释到现实世界问题解决的多种任务，使我们能够全面评估模型的能力。为了评估模型的定位能力，我们在RefCOCO、RefCOCO+和RefCOCOg基准[64, 33]上测试了DeepSeek-VL2。

与最先进模型的比较。 在多模态理解基准上，我们将DeepSeek-VL2与最先进的模型进行了比较，包括LLaVA-OV[45]、InternVL2[15]、DeepSeek-VL[59]、Qwen2-VL[88]、Phi-3.5-Vision[1]、Molmo[22]、Pixtral[3]、MM1.5[107]和Aria-MoE[46]。结果见表3和表4。得益于我们的MoE架构，DeepSeek-VL2在更少的激活参数下实现了相似或更好的性能。在定位基准上，我们将DeepSeek-VL2与Grounding DINO[56]、UNINEXT[52]、ONE-PEACE[87]、mPLUG-2[97]、Florence-2[96]、InternVL2[16]、Shikra[11]、TextHawk2[103]、Ferret-v2[108]、MM1.5[107]和Qwen2[88]进行了比较。我们的模型在相似规模下优于其他VLM。

表3：在OCR相关多模态基准上与最先进模型的比较。 †：MoE模型的激活参数。

表4：在一般QA和数学相关多模态基准上与最先进模型的比较。 †：MoE模型的激活参数。*：在不同设置下评估。

5.2 定性研究

在本节中，我们展示了DeepSeek-VL2的不同能力，从一般问答到视觉叙事和视觉定位。

一般视觉问答。 得益于我们的新VL预训练数据集和多样的SFT数据，DeepSeek-VL2在一般视觉问答方面展示了显著提升的能力，如图4所示。总体而言，该模型在密集图像描述方面表现出色，能够识别常见地标、一般视觉知识以及中英文中的丰富文本。它在图表理解方面也表现出色，能够准确识别属性。此外，我们在图5中展示了DeepSeek-VL2在表情包理解方面的改进，它能够描述正确的上下文并解释幽默，具有有意义的文化背景。

图4：DeepSeek-VL2的一般问答能力。 我们的模型具有多方面的能力，包括地标识别、基于图像的诗歌创作、回答一般知识问题、理解图表、识别文本等。

图5：DeepSeek-VL2的表情包理解能力。 我们的模型能够理解表情包中的幽默并提供解释。

多图像对话。 DeepSeek-VL2在多图像对话方面展示了改进的能力，如图6所示。我们的模型能够分析多个图像之间的关联和差异，同时通过整合多个图像的内容进行简单推理。例如，它可以根据某些食材的图像思考如何准备一道菜。

图6：DeepSeek-VL2的多图像对话能力。 我们的模型能够理解多个图像之间的关系，并基于它们进行推理。

视觉叙事。 在图7中，我们展示了DeepSeek-VL2能够在给定几张图像的情况下创作一个创意故事。故事创作基于其强大的视觉能力，如地标识别和OCR，如绿色文本所示。此外，由于故事创作能力源自纯文本的DeepSeek Chat模型，该模型已经与良好的安全性对齐，我们在内部测试中没有观察到DeepSeek-VL2产生有害和NSFW输出的显著情况。然而，值得注意的是，现实世界中的创意叙事需求更多样化的类型（如恐怖、喜剧、动作）和不同的情节类型（如幸福或悲剧结局），这可能与LLM/VLM研究中的安全要求存在内在冲突。我们旨在探索解决方案，在考虑这些挑战的同时拓宽叙事范围。

图7：DeepSeek-VL2的视觉叙事能力。 我们的模型能够接受多张图像作为输入，并根据图像用中文或英文讲述一个故事。

表5：在视觉定位基准上与最先进模型的比较。我们不同规模的模型在相似规模的MLLM中均取得了最佳结果

视觉定位。 视觉定位是我们为DeepSeek-VL2带来的新能力。在图8中，我们展示了DeepSeek-VL2的一般定位能力。有趣的是，尽管我们训练集中的大多数图像来自自然场景，且引用表达式是对象类别名称或对象的具体描述，但我们发现模型能够推广到其他场景（如表情包和动漫），并具有识别某些名人和抽象概念的能力。此外，我们在图10中展示了DeepSeek-VL2的上下文视觉定位能力。给定第一张图像，模型能够在第二张图像中定位同一类别的对象。我们还观察到模型展示了涌现能力。给定图像和文本描述，模型能够结合图像和文本信息，在第二张图像中识别相应的对象。示例见图10的第二行和第三行。

图8：DeepSeek-VL2的视觉定位能力。 我们的模型能够根据类别名称、描述或某些抽象概念定位对象。

基于定位的对话。 通过特殊标记<|grounding|>，DeepSeek-VL2能够释放其基于定位的对话能力，在其回答中引用关键对象并提供准确的位置，如图9所示。这使得模型能够更好地与现实世界交互，从而在具身AI和计算机/手机代理等领域创造更大的机会。

图9：DeepSeek-VL2的基于定位的对话。 我们的模型能够在回答中引用关键对象并提供准确的位置，从而实现与现实世界的更好交互。

图10：DeepSeek-VL2的上下文视觉定位。 给定一张图像，无论是带有视觉提示还是不带视觉提示，DeepSeek-VL2都能在另一张图像中找到相关对象。

6 结论

在本技术报告中，我们介绍了DeepSeek-VL2，一个增强版的基于MoE的视觉-语言模型，共有3B、16B和27B参数，相应的激活参数为1.0B、2.8B和4.5B。这种配置在训练和推理阶段都实现了高效的计算消耗。值得注意的是，我们的3B、16B和27B模型可以在分别配备10GB、40GB和80GB内存的单个GPU上部署。我们采用动态分块视觉编码策略，以高效处理具有不同宽高比的高分辨率图像。通过公开代码和预训练模型，我们旨在推动视觉和语言交叉领域的进一步进展和应用。

局限性和未来工作。 尽管DeepSeek-VL2在各种任务中展示了强大的能力，但仍有几个方面需要未来改进。目前，DeepSeek-VL2的上下文窗口仅允许每个聊天会话中包含几张图像。我们计划在下一个版本中扩展上下文窗口，以实现更丰富的多图像交互。此外，与其他当前的VLM一样，模型在处理模糊图像或未见对象时偶尔会遇到挑战，这为未来版本中提高鲁棒性提供了机会。最后，尽管DeepSeek-VL2在视觉感知和识别任务中表现出色，我们旨在增强其推理能力。这些识别的领域指导了我们持续的研究方向，以继续提升模型的能力。