VITRON: A Unified Pixel-level Vision LLM——一个统一的像素级视觉大语言模型，用于理解、生成、分割和编辑-CSDN博客

本文链接：https://blog.csdn.net/Together_CZ/article/details/144906914

这篇文章介绍了一个名为Vitron的通用像素级视觉大语言模型（LLM），旨在实现对图像和视频的理解、生成、分割和编辑。以下是文章的主要内容总结：

背景与挑战：
- 现有的视觉大语言模型（LLMs）在多模态通用性方面存在不足，如缺乏对图像和视频的统一支持、功能覆盖不全等。
- 未来的视觉LLMs需要具备更高的统一性，支持多种视觉任务，并确保不同任务之间的协同作用。
Vitron的架构：
- Vitron基于LLM主干，前端集成了图像、视频和像素级区域视觉的编码器，后端则通过集成最先进的视觉专家模块，支持多种视觉任务。
- 提出了一种混合指令传递方法，结合离散文本指令和连续信号嵌入，确保LLM的决策能够精确传递给后端模块。
- 设计了跨任务协同模块，最大化任务不变的细粒度视觉特征在不同任务之间的共享，增强任务之间的协同作用。
训练与优化：
- Vitron的训练分为三个阶段：基本多模态理解和生成技能训练、细粒度时空视觉定位指令微调、跨任务协同学习。
- 通过对抗训练解耦任务特定特征和任务不变特征，提升不同任务之间的协同效应。
实验与结果：
- 在12个视觉任务和22个数据集上进行了广泛实验，Vitron展示了其在视觉分割、细粒度视觉理解、生成和编辑方面的广泛能力。
- Vitron在多个任务上的表现与甚至超越了单一任务的SoTA专家模型，验证了其作为多模态通用模型的有效性。
贡献与未来方向：
- 提出了首个通用的视觉MLLM，能够对图像和视频进行像素级的理解、生成、分割和编辑。
- 展示了构建视觉-语言通用模型的潜力，推动了多模态AI向更统一的方向发展。

Vitron通过其先进的架构和训练方法，展示了在多模态视觉任务中的强大能力，为未来的视觉-语言通用模型研究提供了新的方向。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

官方项目主页在这里，如下所示：

官方项目地址在这里，如下所示：

摘要

近年来，视觉大语言模型（LLMs）的发展取得了显著进展，但在多模态通用性方面仍面临挑战，例如粗粒度的实例级理解、缺乏对图像和视频的统一支持，以及对各种视觉任务的覆盖不足。本文提出了Vitron，一个通用的像素级视觉LLM，旨在全面理解、生成、分割和编辑静态图像和动态视频。Vitron基于LLM主干，前端模块集成了图像、视频和像素级区域视觉的编码器，后端则通过集成最先进的视觉专家模块，支持从视觉理解到视觉生成的多种视觉任务。为了确保从LLM到后端模块的有效且精确的消息传递，我们提出了一种新颖的混合方法，同时集成离散的文本指令和连续的信号嵌入。此外，我们设计了多种像素级时空视觉-语言对齐学习，以使Vitron达到最佳的细粒度视觉能力。最后，我们提出了一个跨任务协同模块，以最大化任务不变的细粒度视觉特征，增强不同视觉任务之间的协同作用。通过在12个视觉任务和22个数据集上的实验，Vitron展示了其在四大视觉任务集群中的广泛能力。总体而言，这项工作揭示了开发更统一的多模态通用模型的巨大潜力。

1. 引言

近年来，多模态大语言模型（MLLMs）领域在多个社区中迅速发展。大量的研究工作致力于增强强大的纯语言LLMs，使其具备视觉感知能力，从而扩展其作为MLLMs的适用性[1, 49, 63, 127, 77, 111, 27]。MLLMs，如BLIP-2 [49]、LLaVA [63]、MiniGPT-4 [138]和GPT-4V [121]等，展示了强大的图像理解能力，与语言的深度语义理解相媲美。在视觉领域，处理和理解动态视频的能力同样至关重要。同时，一些专注于视频理解的MLLMs也相继出现，如VideoChat [50]和Video-LLaMA [128]，展示了在视频理解方面的显著进展。

随后的研究进一步扩展了MLLMs的能力，主要沿着两个方向进行。一方面，MLLMs对视觉的理解不断深化，从粗粒度的实例级理解转向像素级的细粒度图像理解，从而实现视觉区域定位能力，如GLaMM [84]、PixelLM [85]和MiniGPT-v2 [11]等，以及像素级视频LLMs [74]。另一方面，MLLMs在视觉领域支持的功能广度也在扩展。部分研究已经尝试使MLLMs不仅能够理解输入的视觉信号，还能支持视觉内容的生成和输出，如GILL [43]、Emu [96]等系统能够灵活生成图像内容，而GPT4Video [105]和NExT-GPT [114]则实现了视频生成。

我们认为，未来视觉LLMs的趋势必然朝着高度统一的方向发展，即多模态通用模型。然而，我们观察到，尽管社区开发了多种视觉LLMs，但仍然缺乏统一性。首先，几乎所有现有的视觉LLMs都将图像和视频视为独立的实体，要么仅支持图像，要么仅支持视频[1, 96, 138, 128]。我们主张构建一个统一的视觉MLLM框架，同时支持图像和视频，因为视觉本质上包括静态图像和动态视频——这两者都是我们世界的核心组成部分，并且在大多数场景中可以互换。其次，当前MLLMs对视觉功能的支持不足，大多数模型仅能理解[63, 138]，或最多生成图像或视频[20, 105]。我们认为，未来的MLLMs应支持更广泛的视觉任务和功能，实现对所有视觉相关任务的统一支持，并具备“一专多能”的能力，这对于现实世界的应用至关重要，尤其是在视觉创作中，通常涉及一系列迭代和交互操作。例如，用户通常从生成图像开始，将想法转化为视觉内容；然后通过进一步的细粒度编辑来完善内容；接着通过生成视频来创建动态内容；最后，通过多轮迭代交互（如视频编辑）来增强和完成创作。最后但同样重要的是，对于集成了多种多模态功能的通用模型，关键在于如何确保所有任务尽可能达到最佳性能。这包括：1）LLM的指令能够精确传递给下游解码器；2）不同任务之间不会相互削弱，而是能够协同合作。

为了解决这些不足，本文提出了Vitron，一个开创性的通用像素级视觉LLM，如图2所示。首先，Vitron利用LLM主干进行理解、推理、决策和多轮用户交互。为了感知图像和视频模态信号并支持细粒度的用户视觉输入，Vitron集成了图像、视频和区域框/草图指定输入的编码器。在后端，集成了多个最先进的（SoTA）图像和视频模块，用于解码和执行广泛的视觉任务，涵盖从低层次到高层次的视觉理解（感知和推理）、生成、分割（定位和跟踪）、编辑（修复）等。为了确保Vitron能够精确地将LLM的决策传递给各种后端解码器模块以执行功能调用，我们提出了一种新颖的指令传递混合方法。具体来说，我们使LLM不仅输出离散的文本指令，还输出传递给模块的连续信号特征嵌入。最后，为了最大化Vitron中不同模块的功能，我们进一步设计了一个协同模块，通过最大化任务不变的细粒度视觉特征在不同视觉任务之间的共享，增强任务之间的协同作用。

Vitron的整体训练旨在使其具备强大且全面的视觉理解和操作能力。我们首先通过以下步骤赋予Vitron基本的MLLM技能：1）前端编码器与中央LLM之间的视觉-语言对齐学习；2）面向调用的指令微调；3）LLM与后端模块之间的嵌入对齐微调。在此基础上，我们进一步强化Vitron的能力。一方面，我们引入了细粒度的时空视觉定位指令微调，训练LLM进行图像和视频的定位预测和像素级感知，使Vitron充分具备像素级视觉感知能力。另一方面，我们利用对抗训练[29, 100]从信号特征表示中解耦任务特定特征和任务不变的细粒度视觉特征，从而增强不同任务之间的协同作用。

我们在12个任务和22个数据集上进行了广泛的实验。凭借其作为多模态通用模型的先进架构，Vitron展示了其在广泛的视觉任务中的熟练能力。值得注意的是，该统一系统在特定任务上的表现与甚至超越了单一任务的SoTA专家模型。进一步的分析揭示了系统每个设计的有效性。我们的总体贡献总结如下：

据我们所知，我们首次提出了一个通用的视觉MLLM——Vitron，能够对图像和视频进行像素级的理解、生成、分割和编辑。
我们引入了一种更有效的LLM到解码器的指令传递机制，结合了离散文本和连续信号嵌入。
我们提出了多种像素级视觉-语言时空对齐学习，以使MLLMs达到最佳的细粒度视觉能力。
我们设计了一个协同模块，以最大化任务不变的细粒度视觉特征在不同视觉任务之间的共享，从而使Vitron超越了现有SoTA专家模型的性能。

2. 相关工作

在视觉领域，从低层次的视觉像素理解[7, 65, 120, 46, 55, 122, 102, 52, 53, 54]到高层次的整体语义理解[19, 45, 70, 23, 31, 38, 39, 48, 115, 26, 56, 24]，实现深刻的理解和全面的操作能力是一个重要的课题。近年来，强大的大规模视觉模型得到了发展，如ViT [21]和CLIP [83]，它们实现了显著的视觉理解能力；模型如SAM [42]和SEEM [139]解决了视觉分割任务；基于扩散的模型[34, 82, 73, 28, 112, 86, 25]在视觉生成方面达到了前所未有的性能。然而，这些模型可能缺乏作为中央决策处理器的LLM，无法灵活解释用户意图或交互式执行任务[97, 47, 114]。LLMs的出现展示了前所未有的智能能力[76, 16, 99]。基于LLMs在语言理解方面的成功，研究人员迅速开发了多种MLLMs，使LLMs能够理解视觉。通过将高性能的图像或视频编码器集成到基于语言的LLMs中，这些模型能够理解视觉信号[77, 1, 49, 81, 63]。除了视觉理解外，进一步的研究还致力于增强MLLMs，例如赋予它们视觉生成能力[43, 96]或支持像素级理解和定位[130, 125, 85, 132, 110]。表1总结了一些现有的流行视觉MLLMs在视觉功能支持方面的表现。

然而，我们观察到当前视觉LLMs的研究在两个方面缺乏深度。首先，当前的视觉LLMs倾向于将图像和视频分开处理，要么仅支持图像，要么仅支持视频。构建一个统一的MLLM至关重要，因为视觉本质上包括静态图像和动态视频，这两者都是我们视觉世界的核心组成部分。因此，同时覆盖这两个方面对于优化实际应用至关重要。尽管像NExT-GPT [114]这样的模型在跨模态统一方面支持较好，但在支持像素级深度视觉理解和全面的视觉操作任务方面仍显不足。第二个问题是现有MLLMs对视觉任务的支持不完整。大多数当前的MLLMs主要支持理解图像或视频[63, 138]，仅有少数支持生成[20, 105]或编辑/修复[113]。构建一个能够处理几乎所有视觉相关任务和操作的通用模型应该是视觉MLLMs的下一个主要趋势。然而，仅仅将现有的视觉专家模型集成到LLM中以形成MLLMs是不够的，因为真正的人类级AI应具备强大的跨任务泛化能力[72]。因此，有必要进一步考虑如何在一个通用模型中实现不同任务专家之间的协同效应[20]，为此，我们在本工作中设计了一种协同策略。此外，与MLLMs的多模态理解能力相比，赋予MLLMs强大的多模态生成能力更具挑战性。关键在于如何有效且无偏地将MLLMs的语义理解信号传递给主干解码器模块。在MLLM社区中，LLM到解码器的消息传递主要有两种主流方法。一种是基于离散的文本指令[106, 90, 104]，另一种是基于连续的信号嵌入[43, 20, 114]。然而，我们发现这两种方法是互补的。具体来说，前者允许LLM通过简单的文本高效地将任务执行命令传递给后端模块，但难以提供模态特定的信号；后者可以方便地携带任务所需的特征，但无法准确传达执行意图（尤其是在管理多个模块时）。在本工作中，我们提出了一种混合方法，将两者结合起来。

3. VITRON的架构

Vitron采用了大多数常见的“编码器-LLM-解码器”架构范式，与现有的流行MLLMs [63, 20, 114]类似。整体框架如图2所示，包含三个关键模块：1）前端视觉和语言编码器；2）中央LLM，用于语义理解和文本生成；3）后端解码器模块，用于响应用户和执行视觉操作。

3.1 前端视觉-语言编码

对于图像和视频，我们分别使用CLIP ViT-L/14@336px [83]作为编码器。视频编码器独立处理每一帧，并通过时间维度上的平均池化生成整体时间表示特征。然后，我们采用一个区域像素感知视觉提取器作为用户交互的草图编码器，例如点击、绘制框或多边形以及涂鸦。我们主要遵循[125]，使用用户输入的对象掩码区域表示，这些表示不仅编码了像素级视觉特征，还收集了每个区域的空间位置信息。区域特征与对象区域的空间几何二进制掩码一起进行池化，生成的嵌入被使用。然后，多模态特征表示通过线性投影传递给LLM。

3.2 核心LLM

在Vitron中，LLM作为核心代理。遵循最常见的实践[15, 94, 128]，我们使用Vicuna（7B，版本1.5）。LLM处理来自语言和视觉模态的输入，执行语义理解和推理，然后做出决策。对于视觉理解任务，LLM直接输出文本响应给用户。另一方面，LLM还需要将信号和指令传递给后端模块，指导它们调用更复杂的任务，如视觉分割、生成和编辑。如前所述，LLM有效且精确地传递消息的能力对于复杂多模态任务的性能至关重要。为此，我们提出完全整合两种常见消息传递方法的优势：离散文本指令和连续信号嵌入。前者有助于准确调用不同的主干模块（得益于LLM在任务调度方面的熟练度），而后者则补充了无法通过离散文本直接描述的更丰富的模态保留视觉特征。如图2所示，LLM输出1）用户的文本响应；2）模块调用的文本指令；3）特殊令牌的特征嵌入。特征嵌入分为任务特定特征和任务不变的细粒度视觉-语言特征。文本指令和特征嵌入都传递给主干模块。

3.3 后端视觉专家

为了使我们的MLLM具备各种视觉任务能力，我们将一系列单一视觉专家集成到LLM中。对于图像生成和编辑，我们集成了基于扩散的模型GLIGEN [57]。对于图像和视频分割，我们选择了SEEM [139]。对于视频生成，ZeroScope [8]和I2VGen-XL [131]分别用于文本到视频和图像到视频任务。最后，对于视频编辑功能，我们集成了StableVideo [9]。来自LLM的文本指令首先确定要调用的任务模块；同时，特征嵌入被馈送到相应模块的特征编码器中以辅助任务执行。具体来说，我们设计了一个结构化调用模板，包括1）模块名称；2）调用命令；3）区域（可选），指定某些任务所需的细粒度视觉特征。特征嵌入包括任务特定特征和任务不变的细粒度特征。该设计的目的是实现特征解耦，在此过程中，我们旨在使任务不变的细粒度特征尽可能广泛地在所有任务之间共享，以促进不同任务之间的协同作用。

4. 像素感知的协同视觉-语言理解微调

在Vitron框架下，我们现在通过三个阶段的训练目标来训练模型。首先，我们尝试赋予其基本的多模态能力，即理解和生成。然后，我们进行细粒度的视觉定位指令微调，以进一步增强模型的像素级感知能力。最后，我们进行跨任务协同学习，最大化所有任务之间共享的细粒度特征。

4.1 基本多模态理解和生成技能训练

在第一阶段的训练中，主要目标是使MLLM具备基本的多模态理解和生成能力，包括前端编码器-LLM的对齐，以及后端LLM-解码器的对齐。附录SSB.1详细介绍了以下三种类型的训练。

整体视觉-语言对齐学习。这是为了确保输入的视觉和语言被映射到一个统一的特征空间。遵循先前的常见实践，我们利用包含“图像-标题”对（CC3M [89]）、“视频-标题”对（Webvid [4]）和“区域-标题”对（RefCOCO [40]）的数据集，这些数据集来自现有的语料库和基准。当提供图像、视频或特定视觉区域时，我们使用冻结的LLM生成与参考标题对齐的文本描述或标题。

文本调用指令微调。此步骤的训练旨在使系统具备精确执行命令的能力，使LLM能够生成适当且正确的调用文本指令。为此，我们收集了总共55,000多个指令微调样本。

嵌入导向的解码器对齐微调。除了使用显式文本指令调用下游模块外，信号特征嵌入/表示（来自LLM）也应馈送到模块中。遵循[114]，我们通过解码侧投影层将特征嵌入与所有视觉模块的输入编码器对齐，即通过最小化它们的距离。

4.2 细粒度时空视觉定位指令微调

视觉通用模型应具备强大的像素感知视觉理解能力，包括图像和视频。因此，我们提出了Vitron的细粒度时空视觉定位指令微调。核心思想是使LLM能够定位图像的细粒度空间性和视频的详细时间性。附录SSB.2扩展了以下三个学习方面的详细描述。

图像空间定位。考虑到LLM只能输出文本，我们设计其响应相应的边界框区域。我们专注于两种类型的任务：基于定位的图像描述[133, 137]和参考图像分割[40]。

视频时空定位。对于视频，LLM必须识别空间区域并将其定位在视频的时间上下文中，本质上实现视频跟踪。同样，我们探索了基于定位的视频描述[136]和参考视频跟踪[107]等任务。

基于定位的视觉问答。上述定位任务仅涉及视觉感知的低层次方面。然而，在许多场景中，LLM必须具备高层次、深入的视觉推理能力，基于基础的低层次像素定位。因此，我们进一步引入了基于定位的视觉问答，包括图像问答[88, 37]和视频问答[124]，使LLM能够基于定位结果进行语义级问答任务。

4.3 跨任务协同学习

作为通用模型，直接调用不同的专家会导致一个关键问题：**如何确保不同模块（任务）协同工作？**否则，没有这种协作，将它们集成到一个复合系统中将毫无意义。为了实现这一点，我们提出将信号特征嵌入分解为任务特定特征和任务不变的细粒度特征。直观上，由于我们关注的所有视觉任务都是细粒度的，任务不变的细粒度特征在不同任务之间共享得越广泛，这些任务就越能相互受益，从而获得更大的协同作用。此后，我们引入了一个跨任务协同学习模块，如图3所示。我们采用对抗训练[3]来解耦任务特定特征和任务不变特征。我们首先让不同的主干视觉专家基于这两个特征（通过连接）进行任务预测。同时，我们鼓励第三方判别器（作为分类器）仅基于共享特征表示来确定当前任务。理想情况下，一旦判别器无法准确识别任务，共享特征可以被视为最纯净且广泛适用于跨任务的特征。

5. 实验

现在，我们尝试量化Vitron在四大视觉任务组上的性能，涵盖12个任务和22个数据集。Vitron的所有训练均在10×A100（80G）GPU上进行。为了确保公平比较，所有后续实验采用与基线系统相同/相似的设置，并遵循既定实践进行评估。更多实现细节见附录SSC。由于篇幅限制，更多实验结果见附录SSD。

5.1 视觉分割结果

图像分割。表2展示了在三个数据集上的参考图像分割结果：RefCOCO [40]、RefCOCO+ [123]和RefCOCOg [68]。我们与几个重要模型进行了比较，包括最先进的非MLLM方法和MLLM基线NExT-Chat。显然，我们的Vitron在RefCOCO Val&TestA数据集上略逊于NExT-Chat，但在其余数据集上表现更优。

视频分割。对于视频分割，我们探索了两个任务：视频空间定位（带边界框）和视频对象分割（即视频跟踪；带掩码）。表3展示了Vitron与当前最先进的视频MLLMs在视频空间定位上的比较。显然，Vitron显著优于PG-Video-LLaVA。表4展示了Vitron与一些最先进系统在视频跟踪上的比较，我们的系统继续表现出卓越的性能。

5.2 细粒度视觉理解结果

接下来，我们评估Vitron在实现细粒度视觉理解方面的能力，主要关注图像和视频的区域级任务。

区域级图像理解。我们在包括图像参考表达式理解和图像区域描述的任务上测试Vitron。表5中的比较和结果显示，Vitron在各种数据集和指标上超越了最佳基线，证明了其在图像上的强大且准确的细粒度语义理解能力。

上述两个任务仅关注模型在区域级别的识别能力。进一步，我们深入评估图像语义理解能力，特别是通过基于图像的视觉问答（VQA）任务。这些任务有效地反映了模型在理解图像深层语义内容方面的熟练度。表6展示了在六个数据集上的图像VQA结果。我们主要比较了两组模型：具备和不具备像素级视觉定位能力的模型。研究结果表明，具备细粒度定位能力的模型确实表现出更强的任务性能，表明细粒度定位有助于更深入的理解语义。值得注意的是，我们的Vitron在评估的模型中表现最佳。

区域级视频理解。同样，对于视频，我们评估了区域级视频理解能力。基于图像的观察，我们现在直接参与视频问答任务。表7展示了在四个代表性数据集上的视频问答结果。有趣的是，尽管PG-Video-LLaVA具备视频定位能力，但其结果并不比缺乏定位能力的Video-LLaVA更好。然而，我们的Vitron表现更优。这间接证明了我们的系统具备更准确的视频定位能力（如先前表8所示），有助于更好地理解视频语义。

5.3 视觉生成结果

接下来，我们评估系统在视觉生成方面的能力，重点关注三种最具代表性的生成任务：文本到图像生成、文本到视频生成和图像到视频生成。这些任务广泛涵盖了图像生成需求。表8、9和10展示了我们的Vitron与其他最先进系统（包括MLLM和非MLLM合成器）的比较结果。结果清楚地表明，Vitron在所有三个任务上表现更优。例如，在文本到图像和文本到视频生成任务中，Vitron相比NExT-GPT表现出更先进的性能。同样，在图像到视频生成任务中，Vitron仍然优于最先进的基线VideoCrafter1，展示了卓越的结果。

5.4 视觉编辑结果

图像编辑。我们使用MagicBrush数据集[129]，该数据集挑战模型执行一系列复杂编辑的图像编辑查询。这些编辑包括移除、更改、修复和添加元素。由于目前没有支持图像编辑的MLLM系统，我们的比较仅限于非LLM专家系统。表11展示了不同模型在各种指标上的表现。Vitron在所有指标上表现出更强的性能，表明其稳定的图像编辑能力。

视频编辑。对于视频编辑，社区目前缺乏像图像编辑那样的标准化基准和评估方法。因此，我们选择了手动评估方法。我们要求不同的视频编辑系统根据相同的查询编辑相同的视频，然后让五个人对编辑后的视频进行评分。评估重点关注1）目标内容修改的成功率和2）非目标内容的忠实度/保真度。表12展示了视频编辑的手动评估结果。显然，Vitron在这两方面都优于两个基线系统，展示了卓越的视频编辑能力。随后，我们可视化了Vitron进行视频编辑的过程。

6. 讨论

通过广泛的定量比较，我们展示了Vitron的整体有效性。现在，我们进一步探索系统如何以及为何通过深入分析取得进展。

**离散文本指令还是连续信号嵌入，哪个更好？**首先，我们探索了不同的消息传递机制，以确定离散文本指令是否更有益，或者连续信号嵌入是否更适合构建多模态通用模型。同时，我们验证了所提出的混合消息传递方法的优缺点。我们在6个任务上进行了测试，比较了Vitron使用混合方法（默认设置）、无信号嵌入和无文本指令的任务性能，以及后端任务模块的成功执行率。图4展示了结果。可以观察到，总体而言，使用两种方法的情景下性能始终更好，这证实了我们混合模式的有效性。同时，我们发现文本指令方法更有利于后端模块的成功执行，但软特征嵌入在具体任务性能方面似乎更有用。

**每种细粒度视觉定位学习贡献了多少？**接下来，我们验证了§4.2中提出的各种细粒度视觉定位学习策略的具体贡献。图5（前4个与图像任务相关，后4个与视频任务相关）展示了移除特定学习策略时对性能的影响。总体而言，所有这三种细粒度视觉定位学习策略对于不同的下游任务都至关重要。例如，定位和参考分割任务直接影响细粒度视觉识别任务，而基于定位的视觉问答微调显著提升了认知级问答任务。这验证了我们提出的细粒度视觉定位微调策略的有效性。

**Vitron是否真正实现了跨任务协同？**最后，我们调查了我们的系统是否能够充分支持跨任务协同。基于表2至表12中“协同模块”的消融项结果，我们可以观察到协同学习机制确实对整体性能有积极影响。在图6中，我们进一步研究了不同任务之间是否存在协同作用及其协作关系。为了便于研究，我们考虑了一对一的映射关系，一次研究一对任务之间的协作关系。显然，不同任务之间的协作效果各不相同。更依赖于细粒度视觉特征的任务或主干模块获得了更显著的改进。这也证明了我们的协同学习模块能够成功促进跨任务协同。

7. 结论

在本工作中，我们提出了Vitron，一个通用的像素级视觉LLM，能够无缝地理解（感知和推理）、生成、分割（定位和跟踪）和编辑（修复）图像和视频。我们进一步引入了一种新颖的混合消息传递方法，结合了离散文本指令和连续信号嵌入，以确保精确的功能调用。此外，Vitron采用像素级时空视觉-语言对齐来增强其细粒度视觉能力。还开发了一个跨任务协同模块，以优化任务不变的细粒度视觉特征的使用，提升各种视觉任务之间的协同作用。在12个视觉任务和22个数据集上，Vitron展示了其在视觉分割、细粒度视觉理解、生成和编辑方面的广泛能力。总体而言，这项研究展示了构建视觉-语言通用模型的巨大潜力，能够朝着更统一的AI迈进。

附录

A. 主干视觉模块/专家的详细信息

为了解决基于文本的LLMs在处理各种视觉任务方面的不足，我们考虑集成现成的外部模块。一旦LLM通过理解输入并识别用户意图生成调用细节，相应的模块将被激活以生成非文本输出。技术上，我们采用了多种当前最先进的专家模型进行视觉处理。对于图像生成和编辑，我们集成了基于扩散的模型GLIGEN [57]。对于图像和视频分割，我们选择了SEEM [139]。对于视频生成，ZeroScope [8]和I2VGen-XL [131]分别用于文本到视频和图像到视频任务。最后，对于视频编辑功能，我们集成了StableVideo [9]。表13总结了每个后端模块的功能，以及输入和输出的规范。

B. 像素感知的协同视觉-语言理解学习的扩展

本节扩展了§4中的更多细节。

B.1 基本MLLM技能训练

整体视觉-语言对齐学习。与当前MLLMs的方法一致，我们的方法涉及将输入的视觉语言特征映射到统一的特征空间。该空间创建了中央LLM可以理解的表示，从而使其能够有效处理传入的视觉信号。我们利用“图像-标题”对（CC3M [89]）、“视频-标题”对（Webvid [4]）和“区域-标题”对（RefCOCO [40]）的数据集。当提供图像、视频或特定视觉区域时，我们使用冻结的LLM生成与参考标题对齐的文本描述或标题。

面向调用的指令微调。上述训练阶段赋予LLM和前端编码器理解视觉的能力。此步骤，即调用指令微调，旨在使系统具备精确执行命令的能力，使LLM能够生成适当且正确的调用文本。该文本用于触发各种后端任务执行模块。不同的终端视觉任务可能需要不同的调用命令。为了统一这一点，我们尝试将LLM的响应输出标准化为结构化文本格式，包括：1）用户响应输出，直接回复用户的输入；2）模块名称，指示要执行的功能或任务；3）调用命令，触发任务模块的元指令；4）区域（可选），指定某些任务所需的细粒度视觉特征，例如在视频跟踪或视觉编辑中，后端模块需要此信息。对于区域，基于LLM的像素级理解，将输出由坐标描述的边界框。随后，我们展示了一个视频跟踪示例，用于模块调用的结构化LLM响应。

遵循[114]，我们通过解码侧投影层将特征嵌入与所有视觉模块的输入编码器对齐。我们通过最小化投影特征嵌入与模块输入编码器之间的距离来进行特征对齐学习。例如，对于基于扩散的图像或视频生成，我们可以直接使用文本条件编码器，同时保持所有其他模块固定。技术上，为了使模型能够生成文本以外的其他模态，我们将信号令牌添加到LLM的词汇表中。在对齐训练阶段，我们主要将CC3M、WebVid和AudioCaps的标题作为输入，并将它们与特殊信号令牌连接作为输出。损失函数包括三个关键部分：1）生成信号令牌的负对数似然；2）标题对齐损失：LLM生成的信号令牌的隐藏状态与扩散模型内文本编码器导出的条件文本表示之间的l2距离；3）条件潜在去噪损失[86]。

B.2 细粒度时空视觉定位指令微调

我们提出了Vitron的细粒度时空视觉定位指令微调。核心思想是使LLM能够定位图像的细粒度空间性和视频的详细时间性。技术上，我们利用LoRA [35]使LLM中的一小部分参数在微调期间更新。

基于定位的视觉问答。上述定位任务仅涉及视觉感知的低层次方面。然而，在许多场景中，LLM必须具备高层次、深入的视觉推理能力，基于基础的低层次像素定位。因此，我们进一步引入了基于定位的视觉问答，使LLM能够基于定位结果进行语义级问答任务。具体来说，我们考虑了图像和视频的基于定位的问答。这些任务的数据来源与上述定位任务相同。我们再次依赖GPT-42，利用其想象力，基于上述定位/分割数据集中的给定定位内容设计合理的问题和答案，并将其格式化为指令微调格式。

B.3 跨任务协同学习

B.4 整体训练备注

我们的框架通过三个主要阶段进行训练，按特定的子步骤顺序进行：

步骤1：基本多模态理解和生成技能训练，参见§4.1。
- 步骤1.1：对齐编码器-LLM以进行整体视觉-语言对齐学习。
- 步骤1.2：进行文本调用指令微调，使MLLM学会以正确格式输出文本指令。
- 步骤1.3：当上述步骤收敛时，训练LLM进行连续软嵌入导向的LLM-解码器对齐，使LLM能够将信号传递给下游模块。
步骤2：细粒度时空视觉定位指令微调，参见§4.2。
- 步骤2.1：从图像空间定位训练开始，进行基于定位的图像描述任务和参考图像分割任务。
- 步骤2.2：当MLLM具备细粒度空间理解能力时，进行视频时空定位训练，进行基于定位的视频描述任务和参考视频跟踪任务。
- 步骤2.3：当MLLM学会具备图像和视频时空理解能力时，进行基于定位的视觉问答任务，提升认知水平。
步骤3：作为最后一步，当整体系统学会具备各种视觉任务的竞争能力时，进行跨任务协同学习，参见§4.3。这应通过结合对抗训练和最终任务预测来完成。因此，步骤3的总损失为：。

C. 扩展实验设置

我们在各种标准基准上量化Vitron在下游视觉任务中的性能，并将其与当前一些表现强劲的系统进行比较。鉴于社区中无数的视觉任务，我们的实验仅关注每个任务类别中最具代表性的1-2个任务进行验证。为了确保公平比较，所有后续实验采用与基线系统相同或相似的设置，并遵循既定实践进行评估。在实验之前，我们对Vitron的所有后端模块（如GLIGEN和SEEM）进行了针对性的预训练，以确保我们的系统在测试期间达到最佳性能。我们的方法集中在训练所有编码器的线性投影层，并使用LoRA高效地微调语言模型。

我们的主干LLM是Vicuna3，7B，版本1.5。图像和视频的CLIP-ViT编码器的patch大小为14，并将所有图像和视频帧转换为336px分辨率。我们的协同模块中的任务判别器采用Transformer架构，具有4层，每层768维表示。为了训练我们的模型，我们使用AdamW优化器以及学习率调度器。Vitron的预训练分为三个阶段，所有训练均在10~16×A100（80G）GPU上进行。最初，我们使用全局批量大小为128和最大学习率为3e-4训练模型，此过程大约需要40小时。在第二个微调阶段，我们调整模型，最大学习率为1e-5，使用全局批量大小为90。此阶段的训练大约需要35小时。第三阶段的训练使用全局批量大小为128，并保持最大学习率为1e-5，大约需要10小时完成。

D. 更多实验结果

D.1 视觉分割

视频分割。表15展示了Vitron与一些最先进系统在DAVIS 17 [80] Test-Dev和Youtube-VOS 2019 [119] Val集上的视频跟踪综合比较。

D.2 细粒度视觉理解

区域级图像理解。表16展示了在三个数据集上的图像参考表达式理解的比较。

区域级视频理解。表18展示了在四个代表性数据集上的视频问答结果。有趣的是，尽管PG-Video-LLaVA具备视频定位能力，但其结果并不比缺乏定位能力的Video-LLaVA更好。然而，我们的Vitron表现更优。

E. 案例可视化的定性研究

E.1 视觉分割

图7进一步展示了Vitron如何以交互方式处理图像分割任务的示例。当用户在图像的特定区域绘制或涂鸦轮廓时，Vitron能够准确识别图像中的相应对象。随后，它精确生成识别对象的边界框和掩码区域。

图8还展示了视频分割的过程。Vitron根据提供的查询成功识别、定位和跟踪视频中的目标。我们的系统展示了即使在目标对象描述非常隐晦的情况下，也能准确灵活地捕捉用户意图的卓越能力。

E.2 细粒度视觉理解

图9通过区域图像描述展示了Vitron的细粒度视觉理解能力，准确理解并适当描述图像区域。

此外，我们展示了Vitron通过视频定位任务实现细粒度视觉理解的可视化过程，如图10所示。Vitron对视频细节的精确感知确保了更准确的内容语义理解，从而具备更强的视频理解能力。

E.3 视觉生成

图11展示了跨不同模态的视觉生成过程，包括文本、图像和视频。最初，用户从基本文本命令开始，Vitron能够将简单的想法转化为详细的视频。然而，如果用户对直接从文本生成的视频不满意，他们可以先从文本生成图像，然后对该图像进行微调或编辑，最后基于调整后的图像创建满意的视频。我们的Vitron凭借其强大的多轮对话交互能力，使用户能够执行一系列连续操作，最终实现流畅的内容创作。这充分满足了实际应用场景的需求。